読者です 読者をやめる 読者になる 読者になる

言語処理学会に参加しました

言語処理学会第19回年次大会の2日目と3日目に参加してきました。
f:id:skozawa:20130317104545j:plain:w200


久しぶりの研究の場でした。といっても言語処理学会は1年1回なので、そこまで久しぶりな感じはしなくて、おもしろかった。それと、研究室のメンバーやお世話になっていた人と久しぶりに会えたのでよかった。


さて、言語処理学会は今年から新しい取り組みとして、論文賞を受賞した著者が講演する場が設けられることになったみたいです。2012年度に論文賞を受賞した3名の講演があり、どれも質が高く、おもしろかったので、良い取り組みだった。


いくつか印象に残った発表をメモ

  • 言い換えと逆翻字を用いた片仮名複合名詞の分割

論文賞受賞講演の1つで、形態素解析が難しいカタカナ複合名詞に対して言い換えと翻字を利用することでうまく解析できるというもの。例えば、ジャンクフードに対して、言い換え(ジャンクフードとジャンク・フード)と逆翻字(ジャンクフードとjunk food)を利用することで、ジャンク/フードと分割する。手法も発表もわかりやすくておもしろかった。

  • 他者のコメントの引用を考慮したオピニオンマイニング

ブログの極性判定をする際に引用文を対象にしないことで極性判定の精度が上がるという話。極性判定自体はシンプルなので改良の余地がありそうだった。
ブログの極性が肯定(否定)の場合、引用に対する肯定(否定)となっているのかを質問したけど、そういう関係があるとは限らないらしい。けど、うまく意思疎通できてなくて、もしかしたら正解データがそうでないと言っていたのかもしれない。

絵本にでてくるテキストはひらがなが多いので、一般的な辞書やモデルでは形態素解析が難しいので、辞書の拡張とモデルの再学習をして解析精度を上げたという話。

  • Web を母集団とした超大規模コーパスの設計

100億語コーパスの設定の話。BCCWJの1億語でも規模的にすごいと思ったけど、その100倍とはすごいですね。形態素などを自動で付与するということなので、解析処理も大変そう。

  • UniDic2: 拡張性と応用可能性にとんだ電子化辞書

unidic2とうとうリリースされるらしい。今月目標らしい(今月中は難しそうと言ってたけど)。
unidic2待ちで1年間くらい放置してきたけど、Comainuなんとかしないといけないなー。超大規模コーパスでも使うとかになると今のままだとやばすぎる…


今年はたまたま地元であったので、地元に帰るついでに参加しましたが、来年は北海道らしいので参加は難しそう…