論文メモ:NLP2016

今年は言語処理学会に参加できなかったので、proceedingsを眺めて気になった論文を斜め読みだけした。メモ程度だけど残しておく。
来年の言語処理学会はどこなんだろ、筑波大?行けるといいな。


慣用句感情コーパスの構築および慣用句感情表現辞書の拡張
  • 単語やフレーズだけでなく、慣用句の感情表現を獲得する
  • 既存の慣用句感情表現辞書を使ってコーパスを作成し、そこから慣用句感情表現を拡張する
web上のテキストからの表記ゆれ語獲得
  • 「うーれしい」と「嬉しい」のような表記ゆれ語と正規語を教師なしのアプローチで獲得する
  • Twitterのデータに対して、区切り文字(改行文字、句読点、記号、顔文字、スペース)で分割し10文字以下の文字列を対象とする
    • 実際にデータ見ないと決められないような上手な条件設定だなーと感じた
  • 意味類似度、音類似度、ノード間類似度を利用
    • 音類似度(母音の置換と削除を無視した編集距離)というのはおもしろい
評判情報分析のための製品属性の異表記辞書の自動構築
  • 「価格」「値段」「コスト」などの属性の異表記を獲得する
  • 表(価格.comの仕様表)と製品のレビュー文から属性、属性値ペアを取得
    • レビュー文を利用することが従来研究との違い
    • レビュー文からの抽出はまだ十分ではなさそう
分散表現を用いたニュース記事の重複排除
  • 記事の分散表現のコサイン類似度で記事の重複を判定する
  • オフライン評価として記事の重複具合を評価するだけでなく、オンライン評価として記事のCTRなどでもしているのはおもしろい
文脈限定Skip-gramによる同義語獲得に関する研究
  • Skip-gramを拡張し、文脈を考慮するようにした文脈Skip-gramを利用して同義語を判定
  • 文脈としては、周辺単語の品詞、種類、周辺単語の左右、周辺単語の相対距離に依存した文脈限定関数を利用
  • それぞれの文脈を素性として線形SVMの学習
  • 正解データはWordnetの同義対データベースを利用
  • 文脈を考慮することで、抽出精度、再現率ともに上がっていてよさそう
大規模テキストコーパスを用いた因果関係の自動抽出手法
  • Webコーパスから手がかり表現と共起情報を利用して<勉強、合格>というような因果関係のペアを取得する
  • 手がかり表現と共起情報を使って特徴ベクトルを作り、TF, IDF, PMIからなるスコア関数によって因果関係を取得する
  • ヒューリスティック閾値によるアプローチでは精度が高く、再現率が低い
  • SVMを使って自動分類した場合は閾値に比べて精度は少し下がるが再現率が上がる
  • 再現率は低いけど、教師なしの閾値のアプローチで高い精度で因果関係のペアが取れるのは便利そう
検索条件のための単語分割一貫性の定量的評価
  • 検索クエリと検索対象文書で形態素解析の単位が異なると検索に失敗するケースがでてくる
  • 単語分割の一貫性を求める指標を用意して、既存の形態素解析、辞書に対して適用
  • neologd のように長い単語を固有名詞として辞書を増やしていくと、検索文書においては解析誤りは減るが、検索クエリには合わなくるので、単純に辞書の語彙数増やせばいいのではないというのは、たしかになぁと感じた。
ウェブ上のテキストの書き手の属性推定のための領域適応
  • テキストから性別、年代を教師あり学習で推定する
  • メインはドメイン適応、異なるドメインでも適応できるように、ソースドメインとターゲットドメインで特徴の分布調整や誤りを招く可能性のある特徴の削除をする
  • 属性推定は書き手の情報のみ、もしくは、閲覧者の情報のみを使うケースがほとんどな気がするので、その両方を使うとどうなるのかが気になる。両方の情報を揃えるのは大変だろうけど。
模倣学習を用いた階層的商品分類
  • 楽天の商品をカテゴリ分類する話
  • 分類には階層的分類と非階層的分類があるが、階層的に分類する
  • 階層的分類の場合、上の階層から分類をしていくが、途中で分類を誤るとそのあとの分類に誤りが伝播してしまう
  • 模倣学習を階層的分類に活用することで誤り伝播を低減する
  • Average Revenue Loss という階層構造を考慮した評価指標を使って評価
  • ベースライン(非階層的な手法)に比べてMicro F1はあまり変わっていないが、Average Revenue Lossが減少しているというのはおもしろい
Gunosyにおける言語処理応用
  • ワークショップの論文
  • Gunosyのシステム/技術の変遷が書かれている
  • パーソナライズしていた第1期と、今の仕組みのパーソナライズしていない第2期とに分かれていて、それぞれで直面した課題と対応について書かれていて興味深かった