論文メモ:NLP2016
今年は言語処理学会に参加できなかったので、proceedingsを眺めて気になった論文を斜め読みだけした。メモ程度だけど残しておく。
来年の言語処理学会はどこなんだろ、筑波大?行けるといいな。
web上のテキストからの表記ゆれ語獲得
- 「うーれしい」と「嬉しい」のような表記ゆれ語と正規語を教師なしのアプローチで獲得する
- Twitterのデータに対して、区切り文字(改行文字、句読点、記号、顔文字、スペース)で分割し10文字以下の文字列を対象とする
- 実際にデータ見ないと決められないような上手な条件設定だなーと感じた
- 意味類似度、音類似度、ノード間類似度を利用
- 音類似度(母音の置換と削除を無視した編集距離)というのはおもしろい
評判情報分析のための製品属性の異表記辞書の自動構築
分散表現を用いたニュース記事の重複排除
- 記事の分散表現のコサイン類似度で記事の重複を判定する
- オフライン評価として記事の重複具合を評価するだけでなく、オンライン評価として記事のCTRなどでもしているのはおもしろい
文脈限定Skip-gramによる同義語獲得に関する研究
大規模テキストコーパスを用いた因果関係の自動抽出手法
検索条件のための単語分割一貫性の定量的評価
ウェブ上のテキストの書き手の属性推定のための領域適応
模倣学習を用いた階層的商品分類
- 楽天の商品をカテゴリ分類する話
- 分類には階層的分類と非階層的分類があるが、階層的に分類する
- 階層的分類の場合、上の階層から分類をしていくが、途中で分類を誤るとそのあとの分類に誤りが伝播してしまう
- 模倣学習を階層的分類に活用することで誤り伝播を低減する
- Average Revenue Loss という階層構造を考慮した評価指標を使って評価
- ベースライン(非階層的な手法)に比べてMicro F1はあまり変わっていないが、Average Revenue Lossが減少しているというのはおもしろい