Japan.R 2013に参加してきました

最近Rを勉強したいなーと思いつつなかなか勉強できてない。とりあえず勉強会に参加してみようと思って、Japan.Rに参加してきました。
http://atnd.org/events/44682

4件の発表と11件のLTがあって、全部はメモれなかったけど、適当なメモを書いておく。

Yahoo!ビッグデータからの景気動向指数の推測について

ビッグデータレポート - ヤフー株式会社の中から、景気動向指数を測定。内閣府が出す景気動向指数は2ヶ月程度ラグがあるので、それを推測することで即時に出せるようにする。
測定には検索データを利用。2012年に一度でも検索された単語は約75億語、このうち、毎日一定数以上検索された約60万語を利用。
分析には重回帰分析を利用。約60万語の中から15単語程度が選ばれ、モデルが作成される。
単語の選択はstep wise法を利用し、以下の点に気をつけてモデルを構築

  • オーバーフィッティングしない
  • 最大15ヶ月間先までは安定して使えるモデル


15単語程度で内閣府がだす景気動向指数をある程度推定できているのはすごい。どういう単語が使われてるか気になったけど、結局わからなかった。

実ビジネスデータへのRの活用とその限界

ビジネスデータ(ECサイトの購買データのようなスパースなデータやapacheの生ログのような大量、かつ、非正規化データ)をRで処理するのは大変。言語を適材適所で利用することが重要。
データ分析は前処理、分析、レポートという段階があるが、前処理が大半を占める。
データ分析3か条として

  1. 分析対象を理解
    • ドメイン知識あるか、分析必要か、正しい現状認識ができているか
  2. 分析手法を理解
    • 適切な前処理がされているか、適した手法か、パラメータ調整が適切か、アウトプット理解できるか
  3. 分析結果に対して適切なアクション


データ分析で前処理が一番大変というのは確かにその通りという感じだった。
ベイジアンネットワークを使ってコンバージョンの可視化をしているのは参考にしたいと思った。

オンライン広告における大規模データの活用事例

オンライン広告の課題として、異なる目的を持つプレイヤー(パブリッシャー、広告主、ユーザ)のニーズに答える。
Yahoo!ディスプレイアドネットワーク(YDN) | サービス | Yahoo!プロモーション広告のうち、ターゲティング広告について。ターゲティング広告は買切り制ではなく、事前に費用などを把握できないので、統計解析をして予測値を提供する。
統計モデルにより広告の表示回数を予測する。また、広告がどの程度クリックされるかを予測。
分析方法はリッジ回帰(glmnetライブラリ)を利用。
CTR予測は線形回帰を利用。パラメータが増えると計算が困難になるので、検索エンジンで候補を絞る。Webページから取得した特徴的なキーワード(タイトル、Metaタグ、H1タグ、アンカーテキストなど)も考慮。

2013年のTokyo.R

2013年のTokyo.Rの発表を振り返って、いくつかピックアップして発表。



Japan.Rは初めての参加だったけど、おもしろかった。R詳しくないからどうなるだろうかと思ったけど、あんまりR感なかったので、少し安心。あと、ビジネスで実際に利用している話が聞けたので良かった。