テキストマイニングシンポジウムに参加した

テキストマイニングシンポジウムに参加した。
第5回 テキストマイニング・シンポジウム:参加募集 - 言語理解とコミュニケーション研究会


1日目は企業の方の話が多めで公にできないことも結構あるみたいだった。

  • Twitterから抽出したプロファイルデータと購買データを組み合わせた次世代型ハイブリッド・ターゲティング

楽天NTTデータの人の話。
最初は楽天の人の話で、既存のマーケティング手法には限界があるので、Twitterなどのソーシャルなデータを活用するというもの。リコメンドで問題になる購入履歴のないユーザへの問題(コールドスタート)をTwitterのデータが活用すると緩和ができる。メールの開封率やコンバージョンを購入履歴に基づいたものとTwitterデータを活用したものなどで比較していたのがおもしろかった。
次にNTTデータの人の話。ツイートに対して、キーワード抽出やカテゴリ分類、ポジネガ判定を行っていた。なんかとにかくすごい。NTTデータというかNTT研究所がこれまで10年、20年と作ってきた辞書のなせる業(アルゴリズムもすごいだろうけど)という感じで、真似できる感じは全くしなかった。

Watsonで培った技術を基に構築したIBM Watson Content Analyticsというテキストマイニングのシステムについての話。コールセンターのデータを使ってデモをしていて、「画面がでない」がどのくらい問い合わせられてるかを簡単に可視化できる。構文解析や固有表現抽出、評判分析など深い言語処理もしているようだった。

見える化エンジン」というテキストマイニングシステムの話。ポジネガ判定の結果をアバターを使ってビジュアライズしているのがおもしろかった。それと、消費がモノからコトへ変化しているという話で、キットカットの例をあげて、メッセージをつけてキットカットをプレゼントしたというツイートをきっかけに、キットカットにメッセージなどを書けるようにして、食べるシーンを含めて売るようになったというのはなるほどなと思った。


2日目は学術よりな話。

  • ヤフージャパンのリアルタイム検索における感情分析

一番聞きたかった話。というか、元々は「ニュース記事へのユーザコメントに対する感情分析」という内容だったのでそっちの方が聞きたかったんだけど、途中で内容が変わってしまっていた。
内容はツイートの感情分析。ポジティブ、ネガティブ、ニュートラルの3種類の分類器(SVM)を作って、それを使ってツイートを分類する。素性には単語unigram, bigramと文字trigram、感情語の語彙リスト、顔文字リストを利用。ツイートみたいな文章だと形態素解析に失敗する可能性が高いから文字trigram入れてるのかな。あと、語彙リスト、顔文字リストをシードにしてラベルなしデータとの間で情報伝播して新たな感情語を取得していて参考になった。

ニコニコ動画のコメントが動画全体に対するコメントか動画の一部に対するコメントかユーザに対するコメントかを識別する。ユーザの中でも視聴者同士のコメントのやりとりを識別できるとおもしろそうだなーと思った。ブコメでも同じようなことできるとおもしろそうだ。

8月末あたりに開催されたCOLING2014に参加した方がおもしろそうな論文をピックアップして紹介。
感情分析に関する論文を取り上げてもらったので良かった。特にBest Paperの「A context-based model for Sentiment Analysis in Twitter」はどういう話か気になっていたので良かった。ツイートの感情分析でコンテキスト(前後のツイートや同ハッシュタグ)を利用した話で、結論としては単に前後のツイートを使うだけではあまり効果はなくて、ハッシュタグのように内容のあるコンテキストは効果があるらしい。余裕があったら今度読んでみよう。


久しぶりに研究会に参加した。もっとこじんまりとした研究会かと思ってたけど、200人くらい参加していて驚いた。感情分析とかテキストマイニングとかやりたくて、ちょっと来てみたけど、こういう場にくると研究したくなる。やっぱりエンジニア系のConferenceとは少し雰囲気が違う気がする。