社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した

社内輪読会で論文を紹介した。
今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。

内容

ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNENを別タスクとして、NERを行った後にNENを行っていたものを、同時に解いている点。これにより、NENで得られる知見をNERにフィードバックできて、性能が向上するというもの。


感想

  • NENの効果

人名と地名、組織名などの区別は難しそうなので、それをNENの知見を取り入れて解決できるのであればよさそうに感じた。

  • 評価実験

ベースラインとして従来研究の手法を利用して比較してるけど、提案手法をNERとNENに分割して直列に適用した手法との比較もして欲しいと感じた。ベースラインのNENの手法はルールベースなので、ルールベースを学習ベースにしたのが効いたのか、NERとNENを同時に解いていることが効いているのかちょっと分かりづらい。

  • 外部辞書

素性としてWikipediaなどの外部辞書に含まれているかを利用していて、それがだいぶ効いているのだけど、外部辞書に含まれていない固有表現がどの程度存在してどの程度抽出できるのか気になった。

  • NERのラベル

固有表現抽出のラベルといえば、BIOかと思ってたけど、最近はBILOUの方が使われていて、性能が高いというのは知らなかった。
Comainuでは文節境界解析も少しやっていて、そこでのラベルはBI(Oはない)を使っているけど、BILUを使ったほうがいいのかな、今度試してみよう。