2016年目標

今年の目標を考えた。

  1. 中・長期的な計画を立てて実行する
    • メインの目標。
    • 去年からの継続だけど、やりことは去年のうちに決まったので、実現のための計画をたてて実行に移したい
  2. 日々のことを記録する
    • 去年の振り返りをしようとしたときに結構何を考えて何をしていたかを思い出せなかったので(別に思い出さなくてもいいのかもしれないけど)、週1回くらいは現状をどこかに記録するようにしてみようと思う。
  3. 新しいことをする
    • 具体的なことは特に決まってないけど、行ったことない場所に行ってみるとか、やったことないことをやってみるとか、何か新しいことをしてみたい。
    • 自分の興味範囲がある程度固定されてしまっている気がするので、興味範囲を広げて、自分の幅をもう少し広げたいという感じ。


今年はいつもより早めに目標を立てられた

2015年振り返り

2015年を振り返る。

目標

2015年目標 - skozawa's blog

  1. 何か発表する
    • 発表が夏頃に集中した感じだけど、5回くらい発表できた。
  2. 本読む
  3. 中・長期的な計画を立てる
    • 計画を立てるまではいかなかったけど、やりたいことは見つかった。
    • 文書の面白さを数値化したい。
    • 同じ本を読んでも、面白さとか印象に残る部分が読んだ人によって違ってくるのはなんでだろうと思っていて、これまでの経験とか感性とかによって違ってくるんだろうけど、それをもう少し具体的にして面白いかどうかを科学的、機械的に決めれないものかなーとか考えてる。今年はその下調べの意味もこめて、認知心理学だとかクリエイティビティとかの本を読んでた。来年はもう少し具体的に計画を立てたい。

振り返り

今年を振り返ろうと思ったけど、普段考えてることとかをあまり記録してないので、いざ振り返ろうとすると色々と思い出せないことが分かった。もう少し記録しておくべきかなー。

1~3月

1、2月は今年の目標である中・長期的な計画を立てるために、何をしたいかを考えてた。1年くらいだらだら考えるのかなと思ってたけど、思ったより早くやりたいことの大枠が決まった。結局大枠は決まったけど、計画を立てるまでにはいかなかった。

3月には言語処理学会に参加した。今年で8年連続の参加。来年は仙台なので難しい、9年目にして不参加になりそうだなー。
それと、直接会って会話すると話が進むもので、unidic2の一般配布について確認がとれて、Comainuを更新できたりもした。
長単位解析器Comainu 0.71をリリースしました - skozawa's blog

4~5月

この時期はよく覚えてないけど、認知心理学あたりの本を探して読んでた気がする。

6~8月

はてなエンジニアセミナー、Elasticsearch勉強会、YAPC::Asiaと発表ラッシュという感じだった。

中でも、YAPC::Asiaで発表することになるとは思ってなかった。初参加だったけど、いい会議だなーと感じた。

あとは原稿も少し書いたりしてた。久しぶりの執筆業という感じだった。

9~12月

なんか忙しいというか負荷が少し高かった気がして、常に複数のことをやってるみたいな感じだった。最近はましになったのか、単に慣れたのか大丈夫になった。なんでこんなに疲れるんだろとか考えてて、よくわかってないけど、集中し始めるタイミングで割り込みが入ると疲れやすいんじゃないかという気が漠然としてる。

あとは、学生のときに研究関連で使っていたサービスを7年くらい前に引き継いで、今も保守とかしたり、最近たまに開発の依頼とかがきて少し触ったりしてるけど、開発しづらかったので、フルスクラッチをし始めた。3か月くらいちまちまと開発してきたけど、ようやく完成に近づいてきたのでほっとしてる。

まとめ

去年までいろいろと考えたおかげか、今年は割合いろいろなことを考えるというよりかは、一つの方向に向けて考えを深める感じで過ごせた気がする。目標にしてたこともある程度できたし、振り返るとよい年だったのかなと思う。

Semi-supervised Sentiment-aware LDA

NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。

感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。
コーパスベースのアプローチだと、精度は高いが再現率が低い。逆に辞書ベースのアプローチだと再現率は高いが精度が低いのでこれを解決したいというもの。

f:id:skozawa:20151103174901p:plain


ドメインに依存しない汎用的な素性をコーパスベースのアプローチで取得し、ドメインに依存するような素性は辞書ベースのアプローチでカバーする。
ドメイン依存の単語はSemi-supervised Sentiment-aware LDAというアプローチを使って獲得する。ポジティブ、ネガティブ、ニュートラルの3分類でそれぞれに対していくつかシードを与えてることでドメイン依存の単語を獲得して、これを素性として利用。

Semi-supervised Sentiment-aware LDA

半教師ありLDAは使い勝手よさそうだなーと感じたので、適当に実装して実験してみた。
LDA部分については以下の論文のほうがより詳しかった。

ギブスサンプリングで適当な新聞記事を入力として試す。
シードとしては単語感情極性対応表の0.95以上の単語をポジティブのシードとして、-0.95以下の単語をネガティブのシードとして使った。

結果としては、

  • ポジティブの上位50単語
    • 優等、高見、気品、栄誉、腕前、思いがけない、縁起物、プライド、褒める、ノミネート
    • 栄冠、絶賛、OK、定評、名画、顕彰、佳作、快い、歌人、名手
    • 天才、殿堂、マドンナ、志す、功績、男らしい、味わい、淵、祐、神様、キング
    • 歓声、エール、大作、ロング、傑作、名門、鍛える、感激、温、チャリティー
    • いける、大城、ひろい、好き、治虫、きょうだい、ゴマ、切り取る、入来、ルーキー
  • ネガティブの上位50単語
    • 汚水、凍死、持病、汚れ、陥没、天災、絞殺、病巣、悪性、ダメージ
    • 症例、腫瘍、因果、泥、難易、病死、寒、発熱、害、伝染、排水
    • 重症、渋る、恐喝、荒天、損壊、吸入、ひき逃げ、かもめ、配属、谷間、冨
    • 日食、鋼材、宮野、大寒、七キロ、中ごろ、名勝、杉田、参与、磯村
    • バレリー、こびりつく、行商、領海、受、内臓、はがす、値ごろ、吉井、転覆
  • ニュートラルの上位50単語
    • SACO、チベット、START、康男、エム、アキア、文民、ガンジス、一億四千万、上程
    • 破局、ブラウン、予期、低落、並立、新株、カブール、穀物、建国、復党
    • BIE、出方、断交、ドイモイ、激甚だ、待ったなし、クレムリン、右派、六十億、アパルトヘイト
    • 玩具、相殺、画定、戸籍、元金、線引き、綱渡り、天安門バサエフ、論調
    • 大詰め、開廷、内需、越年、肩上がり、制圧、対案、引き合い、見いだせる、抑圧

データセット適当だし、チューニング特にしてない割には結構いい感じに取れてる気がする。
ちゃんとシード整理したり、チューニングしたりしたら結構よくなるんじゃないかという期待が持てる感じだった。

長単位解析器Comainu 0.72をリリースしました

中・長単位解析器Comainuのバージョン0.72をリリースしました。
バグフィックスです。

リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN

一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました。
perl5180delta - perl v5.18.0 での変更点 - perldoc.jp


問題点の指摘、および、丁寧なデバッグをして頂き、@katsuhitosudoh さんありがとうございました。

表現/発想/言葉の技術を読んだ

少し前に広告コピーの本を読んでいて、その関連でたまたま本屋で見つけた「言葉の技術」が面白かった。少し調べたら同じ電通関連の本があることがわかったのでそれも含め3冊読んでみた。

表現の技術

感情を振り子に例えて、より振り子を大きく振らすための表現について書かれている。

「人は笑う前に必ず驚いている」と書いていて、感情を動かすために絶対必要な要素として驚きを挙げている。笑いと驚きをつなげて考えたことがなかったので、意外だったけどたしかにという気がした。

他には関係性を使った笑いの作り方や、物語の作り方みたいなのが書いてあった。

表現の技術―グッとくる映像にはルールがある

表現の技術―グッとくる映像にはルールがある

発想の技術

イデアに関する本。アイデアとは思いつきではなく、何かしらの課題を解決するものとして、課題を「把握する技術」、競合などを「発見する技術」、商品などの価値を「転換する技術」、世の中に伝えるための「具体の技術」の4つの技術について書かれていた。

競合を発見する技術のところで、役割的、心理的、文化的などに分けてそれぞれの敵を想定していて、例としてお掃除ロボットの心理的な側面からの敵として自分で掃除をやらなくなるという抵抗感を挙げていたりして面白かった。

それと、具体の技術のところで、コンセプトについて書かれていて、コンセプトを「存在しなければならない理由」といっているのはわかりやすかった。

発想の技術 アイデアを生むにはルールがある

発想の技術 アイデアを生むにはルールがある

言葉の技術

印象的な言葉ではなく、人に「伝わる」言葉をどのように書くかについて書かれていた。
結論としては「人よりたくさん考えること」なんだけど、広告コピーを考える切り口として、「商品・企業」、「ターゲット」、「競合」、「時代・社会」という4つの視点を挙げていた。

個人的に印象的な言葉が多い本だった。

  • 「ざっくりとした言葉で、満足しない方がいい」
    • 普段「便利」とか使っていて身に覚えがあったので、気を付けたい
  • 「いいこと言おう」の誘惑
    • 「いいこと」よりも「ホントのこと」を心がけたほうがいいというもの。
  • 「ぶれない」ことへの固執
    • 結果としてよくなるなら、ぶれてもいいという考え方。ぶれないことがいいという印象があったので、ぶれてもいいというのはちょっと意外な印象だったけど、たしかになぁと思った。

あとは一番印象に残ったのは以下。とにかく深く、広く考えたほうが強いという感じなのは凡人の自分にとってはちょっと嬉しい言葉だった。


素晴らしい考えが急にひらめくほど、僕らは天才ではないからです。
第一印象が常に正しいほど、僕らは聡明ではないからです。

思いつくものではない。考えるものである。言葉の技術

思いつくものではない。考えるものである。言葉の技術


最近はクリエイターがどんな感じなのかや、人の感情を動かすものがどういうものなのかに興味があったこともあって、どれも面白かった。

YAPC::Asia Tokyo 2015の前夜祭で発表しました

初めてYAPC::Asiaに参加して、前夜祭で発表してきました。

yapcasia.org


YAPCの前夜祭の雰囲気をよく知らずに、ものすごい真面目というか硬派な発表をしてしまった。みんなビール飲んでるし、僕の前の発表がuzullaさんで爆笑とりまくってるし、これまでにないやりずらさを感じながらの発表でしたが、一部の人には楽しんでもらえたようなのでよかったです。20分発表で質疑が10分、質疑10分も持つのかと思ってたけど、意外といろんな方が質問してくださったのでありがたかった。



あと、togetterでツイートまとめてもらえるのは助かりますね。ありがたい。
はてブのトピックページはこう作られている! 中の人による実装解説 #yapcasia #yapcasiaE - Togetterまとめ





YAPC::Asia初参加でしたが、いろんな発表があり、どれも面白かった。
他のカンファレンスそんなに参加したことないけど、これだけバラエティのあるカンファレンスっていうのもそうそうないんだろうなーと思う


とにかくスタッフのみなさんお疲れでした。

Elasticsearch勉強会 in 大阪/京都で発表しました

京都と大阪であったElasticsearch勉強会で発表をしてきました。
もともと京都でだけ発表する予定でしたが、発表者が足りないとのことだったので急遽大阪でも同じ内容を発表しました。

Elasticsearch勉強会 in 大阪 - elasticsearch勉強会 | Doorkeeper
Elasticsearch勉強会 in 京都 - elasticsearch勉強会 | Doorkeeper


内容ははてなブックマークのトピック生成の話で、少し前にはてなエンジニアセミナーでも少し話したんですが、今回はElasticsearchを使ってる部分を中心にした発表です。
以下がスライドです。


勉強会の詳細については、 @johtani さんのブログをご覧ください。blog.johtani.info