論文メモ: Linguistic Benchmarks of Online News Article Quality

ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。
自分がやってみたいと思ってることに近いことをやっていて面白い。

概要

オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、質に関係する14の指標を用意して評価する。14の指標に対して、専門家がニュースに対して5段階評価でそれぞれ点数をつけたコーパスを作成。14の指標と質との関係を分析し、ベンチマークとして質を予測できるかを調査。

質を測るための指標

5カテゴリ、14の指標を用意。

  • Readability: 読みやすさ
    • Fluency: 流暢さ、文が意味的につながっているか
    • Conciseness: 簡潔さ、冗長でないか
  • Informativeness: 情報量
    • Descriptiveness: 描写性、タイトルが内容をどの程度表しているか、釣りタイトルじゃないか
    • Novelty: 新規性、平均的な読者が知らない情報が含まれているか
    • Completeness: 網羅性、適切な情報量か、満足できる情報量か
    • Referencing: 参照性、外部ソースへの参照がどの程度か
  • Style
    • Formality: 形式性、ガイドラインに沿っているか、句読点や文法のルールに従っているか
    • Richness: 豊かさ、語彙が多様で面白いものか
    • Attractive: 魅力的なタイトルか
  • Topic
    • Technicality: 専門性
    • Popularity: 需要、記事の内容に興味がある読者の数
  • Sentiment
    • Subjectivity: 主観性
    • Sentimentality: 感情性、どの程度ポジティブ、ネガティブか
    • Polarity: 極性、ポジティブかネガティブか

コーパス作成

Yahoo! Newsから記事をクロールしてきて、15ジャンル1043記事を収集し、その中からサンプリングして561記事を抽出。561記事に対して、10人の専門家が14の指標と質に対して5段階評価する。1記事は専門家の中の1人と著者の中の1人によって評価される。アノテーションの質を保つため、1日10記事までに制限。一致率は62.1%、1ポイント差以内は65.5%、2ポイント差以内は96.6%

分析結果など

分析結果として、completeness は質と相関性が高い、Polarityは相関性が低いことが分かる。
Generalised Linear Methodを利用して、14の指標を使って質を予測した結果、Completeness, Fluency, Richnessが質に影響が大きかった

感想

最近、文章の面白さについて考えていたけど、結構自分が考えていた要素と似ていて、おもしろかったし、ちゃんと研究したくなった。関連研究にも面白そうなの多いし、読んでみたい。あとは、アノテーションの質のために、1日10記事までに制限するのはおもしろいなと思った。