Comainuをリリースしました

中・長単位解析ツールComainuをリリースしました。

Comainu | 中・長単位解析ツール

ダウンロードはsourceforgeからできます。
ソースファイルとモデルファイルをダウンロードしてください。
モデルファイルは解凍すると1Gくらいあるので注意してください。
中・長単位解析器 Comainu プロジェクト日本語トップページ - SourceForge.JP


長単位というのは、国語研が採用している言語の単位のことです。
国語研が構築した現代日本語書き言葉均衡コーパス(BCCWJ)では言語単位として語彙形態論研究に適した短単位と構文・意味研究に適した長単位を利用しています。
Comainuでは、このうち長単位の解析をします(短単位はMeCabとUniDibで解析します)。


長単位は短単位(単語)以上、文節以下の長さで大雑把には文節を自立語部分と付属語に分けたものが長単位となります。

長単位は,言語の構文的な機能に着目して規定した言語単位である。
長単位の認定は,文節の認定を行った上で,各文節の内部を規定に従って自立語部分と付属語部分とに分割していくという手順で行う。

詳細はBCCWJのドキュメント:形態論情報にあります。



依存ツールが色々あるので、インストールがちょっと面倒かもしれません(特にWindowsで利用する場合)
Windowsで利用する人の方が多い気がするので、Windowsでの依存ツール含めたインストール方法はどこかにまとめる予定です。
まだUniDic2がリリースされていないため、平文から長単位解析する場合に、長単位の語彙素、語彙素読みが正しくない場合があります(UniDic2(XML版)は近いうちにリリースされると思います)。
軽く試したい方は Comainuを試してみる | Comainu から試せます。


Comainuについては言語処理学会で19日にポスター発表します。