論文紹介:Active Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracy

今日は久々に自分の担当の社内輪読会だった。
今回はACL2014のActive Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracyを紹介した。ACL2014読み会が色んなところで開催されていたと思うけど、たぶんどこでも紹介されていなかった気がする(別に紹介されていてもいいのだけど)。

内容

最近はやりのクラウドソーシングを使ったもの。クラウドソーシングを使うと、安価で大規模なコーパスが作れるが、どうしても品質が下がってしまうので、なるべく低い労力で品質を向上したいという目的で能動学習のアプローチを利用してコーパスの品質を向上している。

感想
  • 能動学習のアプローチを取り入れたこと自体はこの論文の新規性ではないけど、コーパスの品質改善に能動学習を利用するのはよさそう。
  • 提案手法のnon-linear distribution spreading アルゴリズムは計算速度はSVMに比べて確かに速いけど、そこまで性能がよいという感じではなかった。
  • Delta-IDFのような特定のクラスに関わりが深い単語に大きい重みを割り当てるよう手法を用いて、能動学習でデータを改善すると複雑(曖昧)な問題が一向にとけなくなってしまわないかが少し気になった。能動学習の問題というよりかは素性の問題ではあるので、良い素性を設計すれば問題ない気もする。
  • 評価実験でSVM-Delta-IDF(素性にBOWのDelta-IDF)とSVM-TF(素性にBOWのTF)を利用しているが、性能はSVM-Delta-IDFのほうがよかった。どちらも素性自体は同じものを使っているはずだが、重みの初期値が違うことで、性能に変化がでていたり、学習時間が半分以下になっているのは面白い。重みの最適化をDelta-IDFを利用することである程度事前にやっていることになっているからこういう結果になっていることなんだろうか。
  • データの品質改善自体はSVM-Delta-IDFもSVM-TFもほとんど同じなのに、性能に差が出ているのが気になったけど、なぜかはよくわからなかった。


次はCOLING2014の論文でも見ようかと思ってたけど、最近だとKDDやWWWにも自然言語処理系の論文が投稿されているみたいだし、実応用を考えるとKDDやWWWのほうが参考になりそうな気がするから、そっちをチェックしたおいたほうがよいのかなと思ってる。