読者です 読者をやめる 読者になる 読者になる

言語処理学会に参加した

今年は京都(京大)であったということもあって、言語処理学会第21回年次大会に参加してきた。
16~21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。


本会議で発表を聞いたものの中から覚えている/気になったものをメモ程度に。

  • 素性に重みを付けるSelf-training手法を用いた文書分類の領域適応
    • ドメイン適応にself-trainingを適用し、素性の重み付けも少し従来と変えるアプローチ
    • 重み付けのところの有効性はあまりよくわからなかった
    • self-training、勝手に98, 99%とかすごい高い精度じゃないとうまくいかないと思ってたのだけど、性能向上していたので意外だった
  • 議論文生成における文抽象化のための固有表現抽象化
    • 聞きたかったけど、人気だったのであんまりちゃんと聞けなかった
    • 固有表現と固有表現の抽象化候補が与えられた場合に、適切な抽象化先を選択するためのアプローチ
    • 抽象化候補は予め辞書で用意しているけど、抽象化候補の自動取得できないかどうかのほうが気になっている
  • 意見文の対象読者を限定する条件の抽出
    • レビューを読むべき条件を抽出する手法
    • 「女性には」や「子連れの家族旅行なので」などの意見に付随する条件部分を認識する
  • 顔文字のパーツの種類と表情の強弱に着目した顔文字表情推定
    • 顔文字のパーツの種類(口、右目、左手など)を推定し、パーツごとに素性の重みを変えて学習することで顔文字の表情を推定。
    • 8種類の表情(泣く、驚く、笑う、怒る、困る、恥じる、不満、無表情)と6種類の感情(怒り、嫌悪、恐れ、喜び、悲しみ、驚き)を利用
    • 表情の強弱をみて、強い表情(泣く、驚く、笑う、怒る)と弱い表情(困る、恥じる、不満、無表情)では感情の分布傾向が違うというのはおもしろかった
  • 時系列文書を対象としたグラフに基づく文書要約への取り組み
    • 時間軸のある複数文書要約を、LexRankというグラフベースの要約手法を基にした手法を用いて行う
    • 時系列文書の要約のデータセットあること知らなかったので、今度見てみたい
  • Paragraph Vectorを用いたウェブ上のユーザー行動のモデリング
    • アクセスログからParagraph Vectorを使って、学習の素性を作り、ユーザの行動予測(サイト訪問、広告クリック)をするアプローチ
    • 言語処理とは少し違いそうだけど、すごいおもしろかった。
  • A Japanese Word Dependency Corpus
    • 完全に見逃してた...すごい聞きたかった

あとは参加しなかった3日目の発表で気になったけど聞けなかったもの


エラー分析ワークショップにも参加。
色々なエラーや分析が聞けたので楽しかった。


今年は実際にすぐに応用できそうかという視点で発表を聞いてたことが多かった気がするけど、ちょっと失敗だったかな。もう少し単純に言語処理研究への興味という感じで聞けたほうが楽しかった気がする。


来年は東北大学らしいので、ふらっとはいけないのが残念。