Yahoo! JAPAN データ&サイエンスワークショップに参加した

yahoo-ds-event.connpass.com


関西であまりデータサイエンティスト系のイベントないので、参加してみた。
東京では、3回に分けてやったものをまとめてやったらしい。東京のやつのほうが内容濃くて面白そうな気もする。


内容は3公演+LT。
関西だと人が集まるかわからないので、内容も結構全体像や事例を話す感じで比較的いろんな人が楽しめるようにしているようだった。その分少し物足りなく感じる部分もあるけど、最初で手探りなので仕方ないし、深い話は懇親会で聞きましょうという感じだったのでそれはそれでいいのかもしれない。逆にLTは短いけど濃い話をする感じだった。


講演のメモ

Data Infrastructure at Scale
  • 大量のデータをどうスケールさせていくか。
  • 商用(ORACLE)やオープンソース(MySQL)、自社開発のDBなどを使っている。
  • パイプラインをKafkaに切り替えようとしている
  • ソフトウェア、ハードウェア、データセンター全てスケールが必要
    • Hortonworksとタッグを組んでHadoopの開発に力を入れている、オープンソースにも貢献
    • Open Compute Projectでハードウェア開発
爆速機械学習サービス応用
  • 機械学習の応用先: YDN、ショッピングの検索ランキング、商品レコメンドなど
  • CTRの予測では広告をだす順番も重要
  • YDNの場合、ユーザの属性、興味、ページの内容を入力として、広告を選ぶ
  • 実サービスの大変なところ
    • アイテム集合が変化する
    • 入力(興味とか)も変化
  • 数十msで応答を返すために2段階でアプローチ
    • 1stフェーズではTop-k Retrievalでざっくりとしたものを返す
    • 2ndフェーズでは高コストだが、高精度な手法を利用
なぜビッグデータが選挙の予測を可能にするのか
  • 部分一致含めると47中45都道府県の選挙結果が当たった
  • 検索数と比例区結果に相関があった
  • Yahoo検索(3年前):75億種類の検索ワード
  • Yahooのユーザ(データ)をリアル社会に当てはめていいのか
    • Netflixという検索語で検証

質問したかったけど、時間ないせいか質問の時間は基本設けられてない感じだったのが残念。
LTはメモってないけど、CTRの推定をバッチ学習vsオンライン学習で実験した話やAbuse対策の話、MySQL5.7の話とかがおもしろかった。


東京に行ってまで聞きに行こうと思うイベントや勉強会ってなかなかないけど、関西での開催だと気軽に聞きに行けるのでありがたい。
あと、今回はPCは持っていかずに、タブレットタブレット用キーワードだけで参加してみたけど、メモはある程度とれる感じだったので、これで結構十分なんじゃないかという感じが得られたのでよかった。