Yahoo! JAPAN データ&サイエンスワークショップに参加した
関西であまりデータサイエンティスト系のイベントないので、参加してみた。
東京では、3回に分けてやったものをまとめてやったらしい。東京のやつのほうが内容濃くて面白そうな気もする。
- Yahoo! JAPANデータサイエンスワークショップ+懇親会 - connpass
- Yahoo! JAPANデータサイエンスソリューションワークショップ+懇親会 - connpass
- Yahoo! JAPANデータインフラ ワークショップ+懇親会 - connpass
内容は3公演+LT。
関西だと人が集まるかわからないので、内容も結構全体像や事例を話す感じで比較的いろんな人が楽しめるようにしているようだった。その分少し物足りなく感じる部分もあるけど、最初で手探りなので仕方ないし、深い話は懇親会で聞きましょうという感じだったのでそれはそれでいいのかもしれない。逆にLTは短いけど濃い話をする感じだった。
講演のメモ
Data Infrastructure at Scale
爆速機械学習サービス応用
- 機械学習の応用先: YDN、ショッピングの検索ランキング、商品レコメンドなど
- CTRの予測では広告をだす順番も重要
- YDNの場合、ユーザの属性、興味、ページの内容を入力として、広告を選ぶ
- 実サービスの大変なところ
- アイテム集合が変化する
- 入力(興味とか)も変化
- 数十msで応答を返すために2段階でアプローチ
- 1stフェーズではTop-k Retrievalでざっくりとしたものを返す
- 2ndフェーズでは高コストだが、高精度な手法を利用
なぜビッグデータが選挙の予測を可能にするのか
- 部分一致含めると47中45都道府県の選挙結果が当たった
- 検索数と比例区結果に相関があった
- Yahoo検索(3年前):75億種類の検索ワード
- Yahooのユーザ(データ)をリアル社会に当てはめていいのか
- Netflixという検索語で検証
質問したかったけど、時間ないせいか質問の時間は基本設けられてない感じだったのが残念。
LTはメモってないけど、CTRの推定をバッチ学習vsオンライン学習で実験した話やAbuse対策の話、MySQL5.7の話とかがおもしろかった。
東京に行ってまで聞きに行こうと思うイベントや勉強会ってなかなかないけど、関西での開催だと気軽に聞きに行けるのでありがたい。
あと、今回はPCは持っていかずに、タブレットとタブレット用キーワードだけで参加してみたけど、メモはある程度とれる感じだったので、これで結構十分なんじゃないかという感じが得られたのでよかった。
2016年目標
今年の目標を考えた。
- 中・長期的な計画を立てて実行する
- メインの目標。
- 去年からの継続だけど、やりことは去年のうちに決まったので、実現のための計画をたてて実行に移したい
- 日々のことを記録する
- 去年の振り返りをしようとしたときに結構何を考えて何をしていたかを思い出せなかったので(別に思い出さなくてもいいのかもしれないけど)、週1回くらいは現状をどこかに記録するようにしてみようと思う。
- 新しいことをする
- 具体的なことは特に決まってないけど、行ったことない場所に行ってみるとか、やったことないことをやってみるとか、何か新しいことをしてみたい。
- 自分の興味範囲がある程度固定されてしまっている気がするので、興味範囲を広げて、自分の幅をもう少し広げたいという感じ。
今年はいつもより早めに目標を立てられた
2015年振り返り
2015年を振り返る。
目標
- 何か発表する
- 発表が夏頃に集中した感じだけど、5回くらい発表できた。
- 本読む
- 15冊くらい読んだ。3つ目の目標と関連しそうなものを中心に読んだつもり。
- 中・長期的な計画を立てる
- 計画を立てるまではいかなかったけど、やりたいことは見つかった。
- 文書の面白さを数値化したい。
- 同じ本を読んでも、面白さとか印象に残る部分が読んだ人によって違ってくるのはなんでだろうと思っていて、これまでの経験とか感性とかによって違ってくるんだろうけど、それをもう少し具体的にして面白いかどうかを科学的、機械的に決めれないものかなーとか考えてる。今年はその下調べの意味もこめて、認知心理学だとかクリエイティビティとかの本を読んでた。来年はもう少し具体的に計画を立てたい。
振り返り
今年を振り返ろうと思ったけど、普段考えてることとかをあまり記録してないので、いざ振り返ろうとすると色々と思い出せないことが分かった。もう少し記録しておくべきかなー。
1~3月
1、2月は今年の目標である中・長期的な計画を立てるために、何をしたいかを考えてた。1年くらいだらだら考えるのかなと思ってたけど、思ったより早くやりたいことの大枠が決まった。結局大枠は決まったけど、計画を立てるまでにはいかなかった。
3月には言語処理学会に参加した。今年で8年連続の参加。来年は仙台なので難しい、9年目にして不参加になりそうだなー。
それと、直接会って会話すると話が進むもので、unidic2の一般配布について確認がとれて、Comainuを更新できたりもした。
長単位解析器Comainu 0.71をリリースしました - skozawa's blog
4~5月
この時期はよく覚えてないけど、認知心理学あたりの本を探して読んでた気がする。
6~8月
はてなエンジニアセミナー、Elasticsearch勉強会、YAPC::Asiaと発表ラッシュという感じだった。
- Hatena Engineer Seminar #5で関連記事レコメンドエンジンの開発について話しました - skozawa's blog
- Elasticsearch勉強会 in 大阪/京都で発表しました - skozawa's blog
- YAPC::Asia Tokyo 2015の前夜祭で発表しました - skozawa's blog
中でも、YAPC::Asiaで発表することになるとは思ってなかった。初参加だったけど、いい会議だなーと感じた。
あとは原稿も少し書いたりしてた。久しぶりの執筆業という感じだった。
まとめ
去年までいろいろと考えたおかげか、今年は割合いろいろなことを考えるというよりかは、一つの方向に向けて考えを深める感じで過ごせた気がする。目標にしてたこともある程度できたし、振り返るとよい年だったのかなと思う。
Semi-supervised Sentiment-aware LDA
NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。
感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。
コーパスベースのアプローチだと、精度は高いが再現率が低い。逆に辞書ベースのアプローチだと再現率は高いが精度が低いのでこれを解決したいというもの。
ドメインに依存しない汎用的な素性をコーパスベースのアプローチで取得し、ドメインに依存するような素性は辞書ベースのアプローチでカバーする。
ドメイン依存の単語はSemi-supervised Sentiment-aware LDAというアプローチを使って獲得する。ポジティブ、ネガティブ、ニュートラルの3分類でそれぞれに対していくつかシードを与えてることでドメイン依存の単語を獲得して、これを素性として利用。
Semi-supervised Sentiment-aware LDA
半教師ありLDAは使い勝手よさそうだなーと感じたので、適当に実装して実験してみた。
LDA部分については以下の論文のほうがより詳しかった。
ギブスサンプリングで適当な新聞記事を入力として試す。
シードとしては単語感情極性対応表の0.95以上の単語をポジティブのシードとして、-0.95以下の単語をネガティブのシードとして使った。
結果としては、
- ポジティブの上位50単語
- 優等、高見、気品、栄誉、腕前、思いがけない、縁起物、プライド、褒める、ノミネート
- 栄冠、絶賛、OK、定評、名画、顕彰、佳作、快い、歌人、名手
- 天才、殿堂、マドンナ、志す、功績、男らしい、味わい、淵、祐、神様、キング
- 歓声、エール、大作、ロング、傑作、名門、鍛える、感激、温、チャリティー
- いける、大城、ひろい、好き、治虫、きょうだい、ゴマ、切り取る、入来、ルーキー
- ネガティブの上位50単語
- 汚水、凍死、持病、汚れ、陥没、天災、絞殺、病巣、悪性、ダメージ
- 症例、腫瘍、因果、泥、難易、病死、寒、発熱、害、伝染、排水
- 重症、渋る、恐喝、荒天、損壊、吸入、ひき逃げ、かもめ、配属、谷間、冨
- 日食、鋼材、宮野、大寒、七キロ、中ごろ、名勝、杉田、参与、磯村
- バレリー、こびりつく、行商、領海、受、内臓、はがす、値ごろ、吉井、転覆
- ニュートラルの上位50単語
データセット適当だし、チューニング特にしてない割には結構いい感じに取れてる気がする。
ちゃんとシード整理したり、チューニングしたりしたら結構よくなるんじゃないかという期待が持てる感じだった。
長単位解析器Comainu 0.72をリリースしました
中・長単位解析器Comainuのバージョン0.72をリリースしました。
バグフィックスです。
リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN
一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました。
perl5180delta - perl v5.18.0 での変更点 - perldoc.jp
問題点の指摘、および、丁寧なデバッグをして頂き、@katsuhitosudoh さんありがとうございました。
Perlが新しいとComainuがコケることが分かったのが昨日の収穫。いつからかは知らないが5.16.1はセーフ、5.22.0はアウト。はっきりとは分からないけどhashの暗黙の要素順の問題なのかな…
— Katsuhito Sudoh (@katsuhitosudoh) 2015, 10月 8
@5kozawa extcorpus.pl L259のeachで出てくるkeyの順番が新しいPerlでは不定になっているようです。これはPerlの問題だとも思いますのでやむをえないかと
— Katsuhito Sudoh (@katsuhitosudoh) 2015, 10月 9
表現/発想/言葉の技術を読んだ
少し前に広告コピーの本を読んでいて、その関連でたまたま本屋で見つけた「言葉の技術」が面白かった。少し調べたら同じ電通関連の本があることがわかったのでそれも含め3冊読んでみた。
表現の技術
感情を振り子に例えて、より振り子を大きく振らすための表現について書かれている。
「人は笑う前に必ず驚いている」と書いていて、感情を動かすために絶対必要な要素として驚きを挙げている。笑いと驚きをつなげて考えたことがなかったので、意外だったけどたしかにという気がした。
他には関係性を使った笑いの作り方や、物語の作り方みたいなのが書いてあった。
- 作者: 高崎卓馬
- 出版社/メーカー: 電通
- 発売日: 2012/05/01
- メディア: 単行本
- 購入: 3人 クリック: 26回
- この商品を含むブログ (8件) を見る
発想の技術
アイデアに関する本。アイデアとは思いつきではなく、何かしらの課題を解決するものとして、課題を「把握する技術」、競合などを「発見する技術」、商品などの価値を「転換する技術」、世の中に伝えるための「具体の技術」の4つの技術について書かれていた。
競合を発見する技術のところで、役割的、心理的、文化的などに分けてそれぞれの敵を想定していて、例としてお掃除ロボットの心理的な側面からの敵として自分で掃除をやらなくなるという抵抗感を挙げていたりして面白かった。
それと、具体の技術のところで、コンセプトについて書かれていて、コンセプトを「存在しなければならない理由」といっているのはわかりやすかった。
- 作者: 樋口景一
- 出版社/メーカー: 朝日新聞出版
- 発売日: 2013/03/07
- メディア: 単行本
- この商品を含むブログ (4件) を見る
言葉の技術
印象的な言葉ではなく、人に「伝わる」言葉をどのように書くかについて書かれていた。
結論としては「人よりたくさん考えること」なんだけど、広告コピーを考える切り口として、「商品・企業」、「ターゲット」、「競合」、「時代・社会」という4つの視点を挙げていた。
個人的に印象的な言葉が多い本だった。
- 「ざっくりとした言葉で、満足しない方がいい」
- 普段「便利」とか使っていて身に覚えがあったので、気を付けたい
- 「いいこと言おう」の誘惑
- 「いいこと」よりも「ホントのこと」を心がけたほうがいいというもの。
- 「ぶれない」ことへの固執
- 結果としてよくなるなら、ぶれてもいいという考え方。ぶれないことがいいという印象があったので、ぶれてもいいというのはちょっと意外な印象だったけど、たしかになぁと思った。
あとは一番印象に残ったのは以下。とにかく深く、広く考えたほうが強いという感じなのは凡人の自分にとってはちょっと嬉しい言葉だった。
素晴らしい考えが急にひらめくほど、僕らは天才ではないからです。
第一印象が常に正しいほど、僕らは聡明ではないからです。
- 作者: 磯島拓矢,吉森太助
- 出版社/メーカー: 朝日新聞出版
- 発売日: 2014/04/18
- メディア: 単行本
- この商品を含むブログ (2件) を見る
最近はクリエイターがどんな感じなのかや、人の感情を動かすものがどういうものなのかに興味があったこともあって、どれも面白かった。
YAPC::Asia Tokyo 2015の前夜祭で発表しました
初めてYAPC::Asiaに参加して、前夜祭で発表してきました。
YAPCの前夜祭の雰囲気をよく知らずに、ものすごい真面目というか硬派な発表をしてしまった。みんなビール飲んでるし、僕の前の発表がuzullaさんで爆笑とりまくってるし、これまでにないやりずらさを感じながらの発表でしたが、一部の人には楽しんでもらえたようなのでよかったです。20分発表で質疑が10分、質疑10分も持つのかと思ってたけど、意外といろんな方が質問してくださったのでありがたかった。
あと、togetterでツイートまとめてもらえるのは助かりますね。ありがたい。
はてブのトピックページはこう作られている! 中の人による実装解説 #yapcasia #yapcasiaE - Togetterまとめ
YAPC::Asia初参加でしたが、いろんな発表があり、どれも面白かった。
他のカンファレンスそんなに参加したことないけど、これだけバラエティのあるカンファレンスっていうのもそうそうないんだろうなーと思う
とにかくスタッフのみなさんお疲れでした。