「ビジネス活用事例で学ぶデータサイエンス入門」を読んだ

最近、データ分析に興味があるので、「ビジネス活用事例で学ぶデータサイエンス入門」を読んでみた。ビジネス活用事例で学ぶ データサイエンス入門作者: 酒巻隆治,里洋平出版社/メーカー: SBクリエイティブ発売日: 2014/06/25メディア: 単行本この商品を含む…

CabochaとComainuをDockerで動かす

下の記事を見て、研究とかで使われるツールでちょっとインストールとかが複雑なものはもうDockerで配布したほうがいいのかなと思った。 専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました - CreateField Blogなので、試しにCabochaとC…

「ITビジネスの原理」を読んだ

「ITビジネスの原理」を読んだけど、個人的にはそんなに面白くなかった。 章構成は以下の通り。 ITビジネスは何で稼いできたのか ネットが世界を細分化する ネットワークとコミュニケーション 消費されるコミュニケーション ITの目指すもの、向かう場所 1~4…

文節境界解析のラベルと性能

NLP

文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。 前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近…

社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した

NLP

社内輪読会で論文を紹介した。 今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。 内容 ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNE…

大阪PRML読書会#7に参加した

少し前になるけど、大阪PRML読書会#7 - 大阪PRML読書会 | Doorkeeper に参加した。 前回に続いて2回目の参加。大阪PRML読書会、良いんだけど、月1なので前回の話を結構忘れてしまう問題がある。あと、1回で進むのが15ページくらいなので、読み終わるのが3年…

Comainu for 中古和文

中古和文版の長単位解析Comainuを作って、リリースした。https://sourceforge.jp/projects/comainu-emj/ BCCWJ(現代日本語書き言葉均衡コーパス)を作るときに、長単位解析をしていて、現代文に関しては終わったのだけど、そのあと中古和文でもという話があっ…

日本語WordNet-Affectの構築

NLP

日本語版のWordNet-Affectが欲しかったので構築した。 WordNet-Affect WordNet-AffectはWordNetに対して感情情報を付与したもので、感情分析などに利用されている言語資源。 WordNet-Affect: an Affective Extension of WordNet日本語のWordNet-Affectを構築…

言語モデルで(ryを解く

NLP

以前、(ryを分析したけど、そのときに気になっていた言語モデルで(ryが推定できるかを少し試してみた。 (ry - skozawa's blog 結果としては思っていたよりできなかった。 問題設定 基本的には穴埋め問題で、 まぁ、冗談はさておき作ったら報告よr(ry の場合…

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した

NLP

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopica…

大阪PRML読書会#6に参加した

大阪PRML読書会#6 - 大阪PRML読書会 | Doorkeeper に参加してきたPRML読みたいと思って買ってはいたものの、完全に積読状態で、さすがに一人で読むのはつらいなーというのもあっていい機会があればと思ってたところで、読書会を見つけて、ちょうど2章からと…

(ry

(ry という表現がなぜか気になったので、分析してみた(ryとは (イカリャクとは) [単語記事] - ニコニコ大百科とは (ryとは『以下略』を意味するネットスラングであ(ry 由来は、『(略)』とタイピングする際に、ローマ字で(ryaku)とする表記かr(ry つまりこ…

「ヤバい統計学」を読んだ

「ヤバい統計学」を読んだ全5章で各章に2つのエピソードとともに統計的思考について書かれている。 ファストパスと交通渋滞 ホウレン草とクレジットカード 大学入試とハリケーン保険 ドーピング検査とテロ対策 飛行機事故と宝くじ まとめるのが面倒なので面…

言語処理学会に参加しました

NLP

札幌であった言語処理学会第20回年次大会に参加してきました 1年ぶりの学会参加。 今年は3年ぶり?くらいの発表もしてきました。 発表内容はComainuをリリースしました - skozawa's blog もう論文も公開されてる http://www.anlp.jp/proceedings/annual_meet…

Comainuをリリースしました

中・長単位解析ツールComainuをリリースしました。Comainu | 中・長単位解析ツールダウンロードはsourceforgeからできます。 ソースファイルとモデルファイルをダウンロードしてください。 モデルファイルは解凍すると1Gくらいあるので注意してください。 中…

2014年

昨日新年会をした、そんなに飲みすぎたつもりはなかったけど、今日はあまり調子がよくなかった。 そんなことはさてより、2014年にやりたいことをぼんやり考えた。 技術を深める 去年はいろいろなことに手を出そうとして結局うまくいかなかった感じがするから…

2013年振り返り

2013年を簡単に振り返る。 去年はエンジニア1年目でエンジニアとして1人前になるのに精一杯だったし、今年の前半もそんな感じだったと思う。まあ、それなりにまともになったんじゃないかと思ってる。 後半からは少し余裕がでてきたので、色々できるといいな…

技術の見せ方について

入社してから初めて、3日間の開発合宿に参加した。 開発したものをどの程度書いていいか分からないのでとりあえず感じたことを書く。今回の合宿で一番勉強になったのが「技術をどう見せる」か。 合宿では、普段業務ではあまり行っていないデータ分析や、自然…

Japan.R 2013に参加してきました

R

最近Rを勉強したいなーと思いつつなかなか勉強できてない。とりあえず勉強会に参加してみようと思って、Japan.Rに参加してきました。 http://atnd.org/events/446824件の発表と11件のLTがあって、全部はメモれなかったけど、適当なメモを書いておく。 Yahoo!…

「社長の教科書」を読んだ

経営とかよくわからないし、これまで知ろうとしたことなかったけど、少し興味が出てきたので、読んでみた。 章構成は 経営という仕事と経営に対する考え方 ビジョン・リネンが会社の根本 戦略立案の基本原則 マーケティングでお客さま第一を具体化する 会計…

WordNet利用メモ

WordNet、ずっと知ってはいたけど、ちゃんと触ったことなかった。最近WordNetを少し触る機会があったので、メモ。 インストール WordNetのサイトからダウンロードしてきてインストール http://wordnet.princeton.edu/wordnet/download/current-version/ http…

ビッグデータの衝撃を読んだ

読んだのは1ヶ月以上前。最近忙しくて書く暇なかったけど、論文書き終わって締切りに追われなくなったので、忘れないうちに印象に残ったところを書いておく(既に結構忘れてる)。 内容としてはビッグデータを活用した事例がたくさん紹介されていた。1番印象…

Kyoto.pmに参加して、LTしました

Kyoto.pm 05 Tech Talk on Zusaar に参加しました。 nekokakさんのClutchの話や、songmuさんのTeng::Plugin::SearchJoinedの話など、色々聞けて面白かったです。 LTはABテストを少しやって感じたことがあったので、ABテストの有意差検定の話をした。有意差測…

「ひらがな」で話す技術を読んだ

特に話し方に関する本を読みたかったというわけではなかったけど、「ひらがな」で話す技術というタイトルに惹かれたので読んでみた。 なぜ惹かれたのかというと、話し方について考えたときに、なんとなく思ってはいたけど、ひらがなでという視点があることを…

PAR::Packerがインストールできなかった

Windows7(64bit)でPerlスクリプトをexe化したくて、PAR::Packerをインストールしようとしたけど、インストールできなかった。 Activeperl, strawberryperlの5.16と5.14でPAR::Packer 1.014をインストールしようとしたけど、うまくいかず、色々調べて、ここの…

Kyoto.pmに参加しました

Kyoto.pm #4 ハッカソンに参加しました。 http://www.zusaar.com/event/582004 参加しましたが、別のタスクをやってたりもして、あんまり時間かけられなかったので、発表はしてません。 ハッカソンでは、形態素解析器や辞書が違うとどの程度結果が変わるかを…

言語処理学会に参加しました

言語処理学会第19回年次大会の2日目と3日目に参加してきました。 久しぶりの研究の場でした。といっても言語処理学会は1年1回なので、そこまで久しぶりな感じはしなくて、おもしろかった。それと、研究室のメンバーやお世話になっていた人と久しぶりに会えた…

Solrでrsyncによるレプリケーション

solrでレプリケーションをする際にbandwidthの制限ができなそうだったので、rsyncを使ってレプリするようにした。 通常はsolr/conf/scriptconfig.xmlに以下のような設定があると、更新があったときにレプリケーションされる。 <requestHandler name="/replication" class="solr.ReplicationHandler" > <lst name="master"> <str name="replicateAfter">commit</str> <str name="replicateAfter">startup</str> <…</lst></requesthandler>

mahout インストールメモ

Apache Mahoutという機械学習ライブラリを触ってみたかったので、少し前にMahoutイン・アクションという本を買った。とりあえず、java, maven, mahout, hadoopをインストールしてみた Java インストール yum install java-1.6.0-openjdk* JAVA_HOMEを設定 ~/…

Perlでのメモリ開放について

Perlで大規模な処理をしたときに、メモリに気を使わないといけないことがあって、メモリの開放について調べたときに、以下のページを見て、スコープ外れただけではメモリ開放されないことを知ったので、自分でも試してみた。 http://skitai.blog98.fc2.com/b…