読者です 読者をやめる 読者になる 読者になる

長単位解析器Comainu 0.71をリリースしました

NLP Comainu

中・長単位解析器Comainuのバージョン0.71をリリースしました。
機能的な変更点はなく、unidic2 (unidic.db) の公開への対応が主な変更です。


unidic2を近日リリース予定としてから1年たってしまいました(すいません...)が、unidic2の一般配布に関する確認がとれた(BCCWJの成果DVDにはunidic2が含まれているので一部の人には既に配布されていた)ので、Comainu用にunidic2をコンパイルしたunidic.dbの配布とその対応を含めたComainu 0.71をリリースしました。これで誰でもComainuを正しく動作させることができるようになります。

リリース comainu 0.71 - 中・長単位解析器 Comainu - SourceForge.JP
リリース comainu-unidic2 0.10 - 中・長単位解析器 Comainu - SourceForge.JP


unidic2(unidic.db)の有無による違い

これまでのComainuでも長単位解析はほぼできており、unidic.dbがなくても長単位の境界推定結果は変わりません。

ただし、unidic.dbがないと、長単位の語彙素、語彙素読みを正しく生成できない場合があります。長単位の語彙素、語彙素読み生成には短単位の語形代表表記や語形基本形などを利用しており、現状ではこれらの情報がunidic2にしかないため、一部の活用がある長単位では語彙素、語彙素読みが正しく生成できていませんでした。

Linux版について

Comainu-0.70をご利用の場合は、Comainu-unidic2 をダウンロードしていただき、適当な場所 (/usr/local/unidic2/share/unidic.db など) に置いてもらえば正しく動作するようになります。

Comainu-0.71を利用する場合は、ソースファイルに含まれるセットアップ用のスクリプトでunidic.dbを含めた関連ツールをインストールするようにしてあるので、ご利用ください。詳しくはこちら

Windows版について

Comainu-0.70をご利用の場合は、Linux版同様、Comainu-unidic2 をダウンロードしていただき、適当な場所に置くことで正しく動作するようになります。
ただし、Comainu-0.71ではソースファイルとモデルファイル、unidic.dbをまとめて1つのパッケージにしているので、Comainu-0.70をアンインストールしていただき、Comainu-0.71をインストールしてご利用頂くことをおすすめします。


skozawa.hatenablog.com