2015-10-13

表現/発想/言葉の技術を読んだ

少し前に広告コピーの本を読んでいて、その関連でたまたま本屋で見つけた「言葉の技術」が面白かった。少し調べたら同じ電通関連の本があることがわかったのでそれも含め3冊読んでみた。

表現の技術

感情を振り子に例えて、より振り子を大きく振らすための表現について書かれている。

「人は笑う前に必ず驚いている」と書いていて、感情を動かすために絶対必要な要素として驚きを挙げている。笑いと驚きをつなげて考えたことがなかったので、意外だったけどたしかにという気がした。

他には関係性を使った笑いの作り方や、物語の作り方みたいなのが書いてあった。

表現の技術―グッとくる映像にはルールがある

作者: 高崎卓馬
出版社/メーカー: 電通
発売日: 2012/05/01
メディア: 単行本
購入: 3人クリック: 26回
この商品を含むブログ (8件) を見る

発想の技術

アイデアに関する本。アイデアとは思いつきではなく、何かしらの課題を解決するものとして、課題を「把握する技術」、競合などを「発見する技術」、商品などの価値を「転換する技術」、世の中に伝えるための「具体の技術」の4つの技術について書かれていた。

競合を発見する技術のところで、役割的、心理的、文化的などに分けてそれぞれの敵を想定していて、例としてお掃除ロボットの心理的な側面からの敵として自分で掃除をやらなくなるという抵抗感を挙げていたりして面白かった。

それと、具体の技術のところで、コンセプトについて書かれていて、コンセプトを「存在しなければならない理由」といっているのはわかりやすかった。

発想の技術アイデアを生むにはルールがある

作者: 樋口景一
出版社/メーカー: 朝日新聞出版
発売日: 2013/03/07
メディア: 単行本
この商品を含むブログ (4件) を見る

言葉の技術

印象的な言葉ではなく、人に「伝わる」言葉をどのように書くかについて書かれていた。
結論としては「人よりたくさん考えること」なんだけど、広告コピーを考える切り口として、「商品・企業」、「ターゲット」、「競合」、「時代・社会」という4つの視点を挙げていた。

個人的に印象的な言葉が多い本だった。

「ざっくりとした言葉で、満足しない方がいい」
- 普段「便利」とか使っていて身に覚えがあったので、気を付けたい
「いいこと言おう」の誘惑
- 「いいこと」よりも「ホントのこと」を心がけたほうがいいというもの。
「ぶれない」ことへの固執
- 結果としてよくなるなら、ぶれてもいいという考え方。ぶれないことがいいという印象があったので、ぶれてもいいというのはちょっと意外な印象だったけど、たしかになぁと思った。

あとは一番印象に残ったのは以下。とにかく深く、広く考えたほうが強いという感じなのは凡人の自分にとってはちょっと嬉しい言葉だった。

素晴らしい考えが急にひらめくほど、僕らは天才ではないからです。
第一印象が常に正しいほど、僕らは聡明ではないからです。

思いつくものではない。考えるものである。言葉の技術

作者: 磯島拓矢,吉森太助
出版社/メーカー: 朝日新聞出版
発売日: 2014/04/18
メディア: 単行本
この商品を含むブログ (2件) を見る

最近はクリエイターがどんな感じなのかや、人の感情を動かすものがどういうものなのかに興味があったこともあって、どれも面白かった。

2015-08-22

YAPC::Asia Tokyo 2015の前夜祭で発表しました

初めてYAPC::Asiaに参加して、前夜祭で発表してきました。

<a href="http://yapcasia.org/2015/talk/show/f5aa5054-12fd-11e5-b4c9-d9f87d574c3a">はてなブックマークのトピックページの裏側 - YAPC::Asia Tokyo 2015</a>yapcasia.org

YAPCの前夜祭の雰囲気をよく知らずに、ものすごい真面目というか硬派な発表をしてしまった。みんなビール飲んでるし、僕の前の発表がuzullaさんで爆笑とりまくってるし、これまでにないやりずらさを感じながらの発表でしたが、一部の人には楽しんでもらえたようなのでよかったです。20分発表で質疑が10分、質疑10分も持つのかと思ってたけど、意外といろんな方が質問してくださったのでありがたかった。

あと、togetterでツイートまとめてもらえるのは助かりますね。ありがたい。
はてブのトピックページはこう作られている！中の人による実装解説 #yapcasia #yapcasiaE - Togetterまとめ

はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015 from Shunsuke Kozawa

YAPC::Asia初参加でしたが、いろんな発表があり、どれも面白かった。
他のカンファレンスそんなに参加したことないけど、これだけバラエティのあるカンファレンスっていうのもそうそうないんだろうなーと思う

とにかくスタッフのみなさんお疲れでした。

2015-07-17

Elasticsearch勉強会 in 大阪/京都で発表しました

京都と大阪であったElasticsearch勉強会で発表をしてきました。
もともと京都でだけ発表する予定でしたが、発表者が足りないとのことだったので急遽大阪でも同じ内容を発表しました。

Elasticsearch勉強会 in 大阪 - elasticsearch勉強会 | Doorkeeper
Elasticsearch勉強会 in 京都 - elasticsearch勉強会 | Doorkeeper

内容ははてなブックマークのトピック生成の話で、少し前にはてなエンジニアセミナーでも少し話したんですが、今回はElasticsearchを使ってる部分を中心にした発表です。
以下がスライドです。

勉強会の詳細については、 @johtani さんのブログをご覧ください。<a href="http://blog.johtani.info/blog/2015/07/16/kansai-1st-elasticsearch-jp/">大阪と京都でElasticsearch勉強会を開催しました。 #elasticsearchjp - @johtaniの日記 2nd</a>blog.johtani.info

2015-06-19

Hatena Engineer Seminar #5で関連記事レコメンドエンジンの開発について話しました

Hatena Engineer Seminar #5 で「はてなブックマークに基づく関連記事レコメンドエンジンの開発」というタイトルで話しました。
この内容です。

<a href="http://bookmark.hatenastaff.com/entry/2015/06/12/105230">「関連エントリー」機能のアルゴリズムを改善しました - はてなブックマーク開発ブログ</a>bookmark.hatenastaff.com

以下が資料です。結構、話で補完してる部分もあるので、資料だけだとわかりづらい部分もあるかもしれません。

はてなブックマークに基づく関連記事レコメンドエンジンの開発 from Shunsuke Kozawa

関連記事と一口に言っても、関連性にはいろいろあると思うので、そこを整理しつつ、タグがなくても関連記事を求められるようなアプローチをとりました。
まだ開発を始めて1ヶ月くらいということあり、まだまだプロトタイプ感が否めないですが、もっと改善していく予定です。

2015-05-28

認知心理学の本を読んだ

最近、認知心理学について少し興味が出てきたのでいくつか読んでみた。

自然言語処理の研究をしていたけど、認知科学のことは勉強するタイミングなかったせいか、全然知らなかった。けど、言語処理してるんだから、認知科学のこと多少は知っておいてもよいのではという気になった。ただ、どれを読んだらいいかわからないのだけど、適当に探して読んでみた。

認知科学への招待

作者: 苫米地英人
出版社/メーカー: サイゾー
発売日: 2014/01/27
メディア: 単行本
この商品を含むブログ (2件) を見る

タイトル通り導入的な内容でわかりやすかった。フレーム理論やスクリプト理論とか、自然言語処理でも聞いたことがある内容が書いてあって、どうやって発展してきたのかがわかって面白かった。最後のほうにでてきた超情報場というのはちゃんと理解できなかった。

現代の認知心理学〈3〉思考と言語

作者: 日本認知心理学会,楠見孝
出版社/メーカー: 北大路書房
発売日: 2010/07
メディア: 単行本
クリック: 1回
この商品を含むブログを見る

1つ目の本よりは学術的な内容の本。問題解決における思考やコネクショニストモデルに基づく言語理解について書かれていた。他には、空間表現（前後左右上下）の理解をどのようにしているかや、言語理解と身体化理論について（身体の動きと言葉が一致しているほうが認知が早い）も書かれていておもしろい。

文章理解の認知心理学:ことば・からだ・脳

作者: 川崎惠里子
出版社/メーカー: 誠信書房
発売日: 2014/09/20
メディア: 単行本
この商品を含むブログを見る

2つ目と同様、学術的な内容の本。2つ目と一部重複してる内容もあるけど、より文章理解に特化したもの。読書量と語彙量の関連性や物語理解について共感しやすいほど物語の理解も早いらしいということが書いてあってなるほどと思った。

とりあえずいくつか読んでみたけど、認知科学が思っていた以上に工学的な印象があることに驚いた。もちろんそうでない部分もあるけど、結構コンピュータで実現できるかどうかも重要な要素っぽかった。まだ研究対象が単語や短文のものが多いので、長文、文章に対する研究も進んでいって欲しいと感じた。

あと、最近読んだWSDM(Web Search and Data Mining) 2015のSarcasm Detection on Twitter: A Behavioral Modeling Approachという論文がおもしろかった。Twitterから皮肉を見つける問題で、これまで言語的な手がかりのみを利用していたものに対して、心理行動科学?(psychological and behavioral sciences)からの知見を活かすことで性能を向上したというもの。あまりこういう論文を見たことなかったので、おもしろかった。言語処理系の学会にもこういう論文あるのかな。

2015-03-30

長単位解析器Comainu 0.71をリリースしました

NLP Comainu

中・長単位解析器Comainuのバージョン0.71をリリースしました。
機能的な変更点はなく、unidic2 (unidic.db) の公開への対応が主な変更です。

unidic2を近日リリース予定としてから1年たってしまいました(すいません...)が、unidic2の一般配布に関する確認がとれた（BCCWJの成果DVDにはunidic2が含まれているので一部の人には既に配布されていた）ので、Comainu用にunidic2をコンパイルしたunidic.dbの配布とその対応を含めたComainu 0.71をリリースしました。これで誰でもComainuを正しく動作させることができるようになります。

リリース comainu 0.71 - 中・長単位解析器 Comainu - SourceForge.JP
リリース comainu-unidic2 0.10 - 中・長単位解析器 Comainu - SourceForge.JP

unidic2(unidic.db)の有無による違い

これまでのComainuでも長単位解析はほぼできており、unidic.dbがなくても長単位の境界推定結果は変わりません。

ただし、unidic.dbがないと、長単位の語彙素、語彙素読みを正しく生成できない場合があります。長単位の語彙素、語彙素読み生成には短単位の語形代表表記や語形基本形などを利用しており、現状ではこれらの情報がunidic2にしかないため、一部の活用がある長単位では語彙素、語彙素読みが正しく生成できていませんでした。

Linux版について

Comainu-0.70をご利用の場合は、Comainu-unidic2 をダウンロードしていただき、適当な場所 (/usr/local/unidic2/share/unidic.db など) に置いてもらえば正しく動作するようになります。

Comainu-0.71を利用する場合は、ソースファイルに含まれるセットアップ用のスクリプトでunidic.dbを含めた関連ツールをインストールするようにしてあるので、ご利用ください。詳しくはこちら

Windows版について

Comainu-0.70をご利用の場合は、Linux版同様、Comainu-unidic2 をダウンロードしていただき、適当な場所に置くことで正しく動作するようになります。
ただし、Comainu-0.71ではソースファイルとモデルファイル、unidic.dbをまとめて1つのパッケージにしているので、Comainu-0.70をアンインストールしていただき、Comainu-0.71をインストールしてご利用頂くことをおすすめします。

<a href="http://skozawa.hatenablog.com/entry/2014/03/16/193208">Comainuをリリースしました - skozawa's blog</a>skozawa.hatenablog.com

2015-03-22

言語処理学会に参加した

NLP

今年は京都（京大）であったということもあって、言語処理学会第21回年次大会に参加してきた。
16～21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。

本会議で発表を聞いたものの中から覚えている/気になったものをメモ程度に。

素性に重みを付けるSelf-training手法を用いた文書分類の領域適応
- ドメイン適応にself-trainingを適用し、素性の重み付けも少し従来と変えるアプローチ
- 重み付けのところの有効性はあまりよくわからなかった
- self-training、勝手に98, 99%とかすごい高い精度じゃないとうまくいかないと思ってたのだけど、性能向上していたので意外だった
議論文生成における文抽象化のための固有表現抽象化
- 聞きたかったけど、人気だったのであんまりちゃんと聞けなかった
- 固有表現と固有表現の抽象化候補が与えられた場合に、適切な抽象化先を選択するためのアプローチ
- 抽象化候補は予め辞書で用意しているけど、抽象化候補の自動取得できないかどうかのほうが気になっている
意見文の対象読者を限定する条件の抽出
- レビューを読むべき条件を抽出する手法
- 「女性には」や「子連れの家族旅行なので」などの意見に付随する条件部分を認識する
顔文字のパーツの種類と表情の強弱に着目した顔文字表情推定
- 顔文字のパーツの種類（口、右目、左手など）を推定し、パーツごとに素性の重みを変えて学習することで顔文字の表情を推定。
- 8種類の表情（泣く、驚く、笑う、怒る、困る、恥じる、不満、無表情）と6種類の感情（怒り、嫌悪、恐れ、喜び、悲しみ、驚き）を利用
- 表情の強弱をみて、強い表情（泣く、驚く、笑う、怒る）と弱い表情（困る、恥じる、不満、無表情）では感情の分布傾向が違うというのはおもしろかった
時系列文書を対象としたグラフに基づく文書要約への取り組み
- 時間軸のある複数文書要約を、LexRankというグラフベースの要約手法を基にした手法を用いて行う
- 時系列文書の要約のデータセットあること知らなかったので、今度見てみたい
Paragraph Vectorを用いたウェブ上のユーザー行動のモデリング
- アクセスログからParagraph Vectorを使って、学習の素性を作り、ユーザの行動予測（サイト訪問、広告クリック）をするアプローチ
- 言語処理とは少し違いそうだけど、すごいおもしろかった。
A Japanese Word Dependency Corpus
- 完全に見逃してた...すごい聞きたかった

あとは参加しなかった3日目の発表で気になったけど聞けなかったもの

大量のつぶやきから日本酒の美味しい店を発掘する：知識源としてのマイクロブログ活用の試み
隠れセミマルコフモデルに基づく教師なし完全形態素解析

エラー分析ワークショップにも参加。
色々なエラーや分析が聞けたので楽しかった。

今年は実際にすぐに応用できそうかという視点で発表を聞いてたことが多かった気がするけど、ちょっと失敗だったかな。もう少し単純に言語処理研究への興味という感じで聞けたほうが楽しかった気がする。

来年は東北大学らしいので、ふらっとはいけないのが残念。