言語処理学会に参加した

筑波大学であった、言語処理学会第23回年次大会に参加してきた。参加したのは2日目と3日目。

聞いてある程度メモをとれたものを残しておく。徐々にメモするの疲れてきて3日目のはあまりメモとれてない。

『現代日本語書き言葉均衡コーパス』への情報構造アノテーションの構築
- BCCWJに対して、情報状態、定性、特定性、有生性、有情性、動作主性、共有性の7つの情報をアノテーションした。
- 意味まで踏み込もうとすると、こういった情報が必要になってくるんだろう。アノテーション自体はすごく難しそうな印象だった。
クラウドソーシングによる関係知識のアノテーション
- XとYにおける活性化関係（促進、抑制）をアノテーションする。Xを固定して、Xに対して促進する、促進させる、抑制する、抑制されるという4つの関係となる、体言もしくは用言を文書中から選択してアノテーションする。クラウドソーシングを利用してアノテーションするが、分類のようなタスクとは異なり、完全一致ではないため、ダミーの質問を利用した単純なクラウドワーカーの見極めができないため、別のページに遷移させて、アノテーションの文字単位の一致度をみて閾値以上のアノテーターには正解のパスフレーズを提示するというアプローチをしている。
- 部分一致とか、複数解が許容されるようなタスクになると、当たり前だけどクラウドソーシング使うのも結構大変なんだなと感じた。体言、用言混ぜてやっていたけど、一旦、体現だけにして問題を簡単にしてやってみてもよかったのかなと思った。
PDFAnno: PDFドキュメントのための言語アノテーションツール
- PDFをテキスト化したあとにアノテーションしようとすると、構造などの情報が失われて、アノテーション作業の効率が下がるため、PDF自体にアノテーションするツールを作成。PDFにアノテーションしてから、テキストに変換する。
- 学生のときにpdf2textとかでPDFをテキストにしてからアノテーションしたりしてたので、気持ちが分かる内容だった。構造とか残せるといいんだけど、やっぱり技術的に難しいんだな。
Simple PPDB: Japanese
- 難易度を付与した大規模な辞書を生成。難易度が4段階、6段階で付与されている辞書の語を使う。難易度を3段階に簡単化して学習データとし、頻度、文字種、単語長、CBOWなどを素性として利用して7割程度の精度で57万語に対して難易度を付与した。この辞書と既存の言い換え表現辞書を利用して、文を平易化した。言い換え表現辞書にノイズがあるため、誤ることもあるが、言語モデルと併用すればよくなる予定とのこと
- 公開されているらしいし、大規模な難易度辞書は使ってみたい。初心者単語はほとんど既存の辞書にカバーされているらしく、辞書外の単語の性能は高くないとのことだった。既存の辞書の難易度って教科書とか教育がベースになってると思うけど、特定分野の難易度の判定もできるのかが気になる。
データ拡張による感情分析のアスペクト推定
- 分類問題にLSTM, CNNなどを適用しようとするときに、データサイズが少ない問題をデータ拡張により解決しようとした場合に、どのような拡張の仕方がよいかを実験したもの。類似度、シソーラス、ルールベースを試し、データサイズを同じにした場合はシソーラスの性能がよかったという結果。
- ルールベース、シソーラスだと文脈は壊れないが、拡張される数には限度がある、一方、類似度は文脈は壊れるが、ルールベース、シソーラスよりもサイズを大きくできる。実験ではルールベースに合わせて、3.5倍くらいのサイズでやってシソーラスが良い結果となっていたが、類似度で10倍のデータサイズにしたほうが結果がよくなっていた。文脈守ってちゃんと作るよりも、多少文脈壊れてでもとにかくデータサイズ増やしたほうがよいということなのかな...もちろん、解きたい課題とアルゴリズムによるんだろうけど。サイズごとの性能をグラフ化し、サチり具合みれるとよかったなと思った。
キーワードに基づくニューラル文生成のためのリランキング
- 動詞1つと名詞2つの3つのキーワードから文を生成する。Encoder-Decoderだと未知語に対応できないので、Propositional Unknownモデルを利用。生成した文をJaccard係数でランキングすると、同じ単語を複数出力する文を高く評価してしまうので、重複単語を考慮したランキング手法を使う。
- 必ず3つのキーワードを含むという制約にしてはダメなのかなと思ったけど、言い換えてよい文が生成されるならよいのかな。キーワードから文生成できると要約とかでも使えそうでよさそうだなと思った。
テーマをもつ観光地グループの自動生成
- 観光地＋都市名、観光資源+都市名で検索し、固有名詞を抽出、共起頻度を計算することにより観光のテーマを抽出する。テーマとテーマに関連する観光地グループを生成。
- 手動でNGワード用意したり、表記揺れに対応したりしていて大変そうではあったけど、こういうのをブクマの地域ページでできるといいのかなと感じた。
Sentiment Analysis with Eight Dimensions for Emotional Chatbots
- りんなとの会話を感情分析した話。感情は8カテゴリ。8カテゴリ1000語（顔文字も含む）を用意し、Character-level RCNNで学習。
- りんなに対する発言と、りんなの発言を感情分析していた、割合をちゃんと覚えてないけど、りんなの発言にも怒りが1割程度あらわれていて、りんなは優しいとは限らないらしい。
賛否表明パターンと行列分解に基づく賛否モデリング
- Aに賛成する人はBにも賛成すると仮定し、情報推薦の問題と同様にして、賛否の問題を協調フィルタリングで解いた。賛否のデータはTwitterの賛否ハッシュタグを利用して収集。
- 情報推薦と同様の問題設定にして解くのはおもしろかった。
レビューテキストの書き手の評価視点に対する評価点の推定
- 総合の評価点ではなく、評価視点ごとに評価点を推定する。レビュー全文ではなく、評価視点に対するコメントのみを利用して評価。評価視点は楽天トラベルの6つ（サービス、など）を利用。コメント抽出では、評価視点と、その類義語、さらにそれらキーワードを含むレビュー記事から頻度上位100、それと並列する単語を利用し、F値で8割程度。抽出したコメントを利用して各評価視点に対する評価点を推定。
- コメント抽出に利用する単語があまり多くなかったのでカバー率が気になったけど、精度重視と言っていた気がする。
日本語における筆者の性格推定の取組み
- Twitterの発言から性格を推定する。正確はビッグファイブ理論というのが有名らしくそれを利用している。
- すでに公開されているのでやってみると面白そう。
単語分かち書き辞書 mecab-ipadic-NEologd の実装と情報検索における効果的な使用方法の検討
- neologdにどうやって新しい単語を追加しているかという話。ベンチマーク問題を作成して、性能を測りつつコスト調整をしながら、新しく単語を追加したときに既存の単語分割がおかしくならないように調整しながら追加をしている。検索ではneologdだけを使うのではなくて、他の辞書も使ったインデックスも用意して重みづけをしつつ検索する。
辞書情報と単語分散表現を組み込んだリカレントニューラルネットワークによる日本語単語分割
- RNNによるBIOタギングをして単語を分割する。RNNの学習時にunigram, bigramといった表層情報だけでなく、対象の文字から始まる（終わる）単語を辞書から検索して素性として利用する。
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
- 上位語の頻度にばらつきがあるのと、関係性を学習してくれず、特定の上位語を学習してしまう問題に取り組む。上位語の頻度が偏らないようにして学習。
- Lexical Memorization 知らなかったけど、本質的な課題を解こうとしていて面白かった。ちゃんと論文読んでみよう。
定量調査のための意見調査コーパス構築への取り組み
- 不満買取センターを作って、不満を書いとる。単語レベルだとわかりづらいので、格関係を取り出し、不満調査のサポートをする
- 今後ビジネスにつなげていくらしい。どのくらいのお金かかったのか聞けばよかったな。
招待講演 : 認知言語学---言語科学の静かなる革命
- チョムスキーの文法理論では限界があるので、認知言語学が生まれてきたという話や、言語能力には認知能力と運用能力が重要といった話や、あとは用法基盤モデルや参照点能力、スキーマユニットといったキーワードについての話があった。1時間と限られた時間ですごい勢いで話されてたのでキーワードを拾うのが精一杯という感じだった。とにかく作ってきた資料を読みましょう、論文集買ってくださいという内容だった。もう少し丁寧な説明のある招待講演だと思ってたので、イメージとは違ってた。

2年ぶりの参加、久々の学会だったけど楽しかった。文生成の現状をあまり知らなかったので、Encoder-Decoderやその派生のモデルについて知れたのはよかった。気になるものの論文を事前に読んでいけるとよかったけど、できなかったので、気になったものについては論文も軽く読んでみよう。

来年は岡山での開催、微妙な距離感。