PyCon JP 2017に参加した

PyConJP 2017に参加してきた。トークを応募していたので、本当はトークできたらよかったけど、落ちてしまったので、聴講のみの参加。 聞いてある程度覚えているものを。 野球を科学する技術〜Pythonを用いた統計ライブラリ作成と分析基盤構築 slide 野球の分…

言語処理学会に参加した

筑波大学であった、言語処理学会第23回年次大会に参加してきた。参加したのは2日目と3日目。 聞いてある程度メモをとれたものを残しておく。徐々にメモするの疲れてきて3日目のはあまりメモとれてない。 『現代日本語書き言葉均衡コーパス』への情報構造アノ…

論文メモ: Linguistic Benchmarks of Online News Article Quality

ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。 自分がやってみたいと思ってることに近いことをやっていて面白い。 概要 オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、…

2017年目標

今年の目標を考えた。 手を動かす、行動する 去年は考えることが多い1年だった。それはそれで視野を広げられた気がするのでよかったけど、何もできなかった感がどうしても出てくるので、今年はもう少し実行性を高めていきたい。中長期的にやりたいことももう…

2016年振り返り

2016年を振り返る。 目標 2016年目標 - skozawa's blog 中・長期的な計画を立てて実行する 全く実行できなかった やりたいと思ってることと似ていることをやっている論文 ( Linguistic Benchmarks of Online News Article Quality ) は見つけたのでもう少し…

エンジニアの立ち居振る舞い: ボトルネックを作らないように

お題「エンジニア立ち居振舞い」僕が意識しているエンジニアの立ち居振る舞いは、チーム開発におけるボトルネックをなるべく発生させないようにすること。エンジニア、デザイナー、企画、ディレクターなどがいるチームで開発していると、エンジニアリングや…

最近読んだ本

最近興味のある話題について、いくつか本を読んだのでその感想。 フォーカス フォーカス作者: ダニエル・ゴールマン,土屋京子出版社/メーカー: 日本経済新聞出版社発売日: 2015/11/26メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る最近…

論文メモ:NLP2016

今年は言語処理学会に参加できなかったので、proceedingsを眺めて気になった論文を斜め読みだけした。メモ程度だけど残しておく。 来年の言語処理学会はどこなんだろ、筑波大?行けるといいな。 慣用句感情コーパスの構築および慣用句感情表現辞書の拡張 単…

Yahoo! JAPAN データ&サイエンスワークショップに参加した

yahoo-ds-event.connpass.com 関西であまりデータサイエンティスト系のイベントないので、参加してみた。 東京では、3回に分けてやったものをまとめてやったらしい。東京のやつのほうが内容濃くて面白そうな気もする。 Yahoo! JAPANデータサイエンスワークシ…

2016年目標

今年の目標を考えた。 中・長期的な計画を立てて実行する メインの目標。 去年からの継続だけど、やりことは去年のうちに決まったので、実現のための計画をたてて実行に移したい 日々のことを記録する 去年の振り返りをしようとしたときに結構何を考えて何を…

2015年振り返り

2015年を振り返る。 目標 2015年目標 - skozawa's blog 何か発表する 発表が夏頃に集中した感じだけど、5回くらい発表できた。 本読む 15冊くらい読んだ。3つ目の目標と関連しそうなものを中心に読んだつもり。 文章理解の認知心理学:ことば・からだ・脳 認…

Semi-supervised Sentiment-aware LDA

NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。 コーパスベースのアプロ…

長単位解析器Comainu 0.72をリリースしました

中・長単位解析器Comainuのバージョン0.72をリリースしました。 バグフィックスです。リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で…

表現/発想/言葉の技術を読んだ

少し前に広告コピーの本を読んでいて、その関連でたまたま本屋で見つけた「言葉の技術」が面白かった。少し調べたら同じ電通関連の本があることがわかったのでそれも含め3冊読んでみた。 表現の技術 感情を振り子に例えて、より振り子を大きく振らすための表…

YAPC::Asia Tokyo 2015の前夜祭で発表しました

初めてYAPC::Asiaに参加して、前夜祭で発表してきました。はてなブックマークのトピックページの裏側 - YAPC::Asia Tokyo 2015yapcasia.org YAPCの前夜祭の雰囲気をよく知らずに、ものすごい真面目というか硬派な発表をしてしまった。みんなビール飲んでるし…

Elasticsearch勉強会 in 大阪/京都で発表しました

京都と大阪であったElasticsearch勉強会で発表をしてきました。 もともと京都でだけ発表する予定でしたが、発表者が足りないとのことだったので急遽大阪でも同じ内容を発表しました。Elasticsearch勉強会 in 大阪 - elasticsearch勉強会 | Doorkeeper Elasti…

Hatena Engineer Seminar #5で関連記事レコメンドエンジンの開発について話しました

Hatena Engineer Seminar #5 で「はてなブックマークに基づく関連記事レコメンドエンジンの開発」というタイトルで話しました。 この内容です。「関連エントリー」機能のアルゴリズムを改善しました - はてなブックマーク開発ブログbookmark.hatenastaff.com…

認知心理学の本を読んだ

最近、認知心理学について少し興味が出てきたのでいくつか読んでみた。 自然言語処理の研究をしていたけど、認知科学のことは勉強するタイミングなかったせいか、全然知らなかった。けど、言語処理してるんだから、認知科学のこと多少は知っておいてもよいの…

長単位解析器Comainu 0.71をリリースしました

中・長単位解析器Comainuのバージョン0.71をリリースしました。 機能的な変更点はなく、unidic2 (unidic.db) の公開への対応が主な変更です。 unidic2を近日リリース予定としてから1年たってしまいました(すいません...)が、unidic2の一般配布に関する確認が…

言語処理学会に参加した

NLP

今年は京都(京大)であったということもあって、言語処理学会第21回年次大会に参加してきた。 16~21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。 本会議で発表を聞いたものの中から覚えてい…

論文紹介:HEADY: News headline abstraction through event pattern clustering

NLP

2週間くらい前になるけど、社内輪読会があって論文紹介をした。 今回はACL2013の HEADY: News headline abstraction through event pattern clustering を紹介した。 内容 同じ内容のニュースの集合に対してヘッドラインを生成する話。固有表現を汎化してパ…

日本語WordNet-Affect構築のnltk3対応

NLP

前に作った、日本語WordNet-Affect作るためのスクリプトが動かないとコメントをもらったので修正した。 日本語WordNet-Affectの構築 - skozawa's blog python2、nltk2系だと動いていたけど、バージョンを固定しないとnltk3が入るようになっていつの間にか動…

2015年目標

もう2015年も半月たとうとしてるけど、今年の目標を考えた。 毎年1月はいつの間にか過ぎてるみたいな感じになってる気がする。 考えた今年の目標は以下の3つ。 何か発表する 去年はあまり発表とかしてなかったので、今年はなにか発表したい。特に今ネタがあ…

2014年振り返り

年末なので2014年を振り返る。 目標 2014年の目標何にしてたかというと、下の3つだった。 2014年 - skozawa's blog 技術を深める できたようなできてないような。もう少し深堀したかった気はするけど、それなりにはできたんじゃないかな。 本を読む 1ヶ月に1…

「ビジネスモデル全史」を読んだ

「ビジネスモデル全史」を読んだので印象に残った部分を簡単に書いておく。ビジネスモデル全史 (ディスカヴァー・レボリューションズ)作者: 三谷宏治出版社/メーカー: ディスカヴァー・トゥエンティワン発売日: 2014/09/18メディア: 単行本(ソフトカバー)…

論文紹介:Active Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracy

NLP

今日は久々に自分の担当の社内輪読会だった。 今回はACL2014のActive Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracyを紹介した。ACL2014読み会が色んなところで開催されていたと思うけど、た…

PyCon JP 2014に参加した

データ解析や機械学習の話が気になったので、PyCon JP 2014に参加した。 PyCon JP 2014 - connpass 会場に電源とれる場所が少なく、あまりメモ取れてなかったので、記憶をたどりながら書いてるけどあんまり覚えてない。 Deep Learning for Image Recognition…

テキストマイニングシンポジウムに参加した

NLP

テキストマイニングシンポジウムに参加した。 第5回 テキストマイニング・シンポジウム:参加募集 - 言語理解とコミュニケーション研究会 1日目は企業の方の話が多めで公にできないことも結構あるみたいだった。 Twitterから抽出したプロファイルデータと購…

Scala Matsuri 2014に参加した

もう1週間くらい前になるけど、Scala Matsuri 2014に参加した。 ScalaMatsuri 2014 - Scala Matsuri 2014 | Doorkeeper 今年は?Scalaを作ったOdersky先生がいらっしゃていて基調講演などをされていた。メモ程度に気になった発表を残しておく。 Node.js vs P…

「ビジネス活用事例で学ぶデータサイエンス入門」を読んだ

最近、データ分析に興味があるので、「ビジネス活用事例で学ぶデータサイエンス入門」を読んでみた。ビジネス活用事例で学ぶ データサイエンス入門作者: 酒巻隆治,里洋平出版社/メーカー: SBクリエイティブ発売日: 2014/06/25メディア: 単行本この商品を含む…

CabochaとComainuをDockerで動かす

下の記事を見て、研究とかで使われるツールでちょっとインストールとかが複雑なものはもうDockerで配布したほうがいいのかなと思った。 専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました - CreateField Blogなので、試しにCabochaとC…

「ITビジネスの原理」を読んだ

「ITビジネスの原理」を読んだけど、個人的にはそんなに面白くなかった。 章構成は以下の通り。 ITビジネスは何で稼いできたのか ネットが世界を細分化する ネットワークとコミュニケーション 消費されるコミュニケーション ITの目指すもの、向かう場所 1~4…

文節境界解析のラベルと性能

NLP

文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。 前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近…

社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した

NLP

社内輪読会で論文を紹介した。 今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。 内容 ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNE…

大阪PRML読書会#7に参加した

少し前になるけど、大阪PRML読書会#7 - 大阪PRML読書会 | Doorkeeper に参加した。 前回に続いて2回目の参加。大阪PRML読書会、良いんだけど、月1なので前回の話を結構忘れてしまう問題がある。あと、1回で進むのが15ページくらいなので、読み終わるのが3年…

Comainu for 中古和文

中古和文版の長単位解析Comainuを作って、リリースした。https://sourceforge.jp/projects/comainu-emj/ BCCWJ(現代日本語書き言葉均衡コーパス)を作るときに、長単位解析をしていて、現代文に関しては終わったのだけど、そのあと中古和文でもという話があっ…

日本語WordNet-Affectの構築

NLP

日本語版のWordNet-Affectが欲しかったので構築した。 WordNet-Affect WordNet-AffectはWordNetに対して感情情報を付与したもので、感情分析などに利用されている言語資源。 WordNet-Affect: an Affective Extension of WordNet日本語のWordNet-Affectを構築…

言語モデルで(ryを解く

NLP

以前、(ryを分析したけど、そのときに気になっていた言語モデルで(ryが推定できるかを少し試してみた。 (ry - skozawa's blog 結果としては思っていたよりできなかった。 問題設定 基本的には穴埋め問題で、 まぁ、冗談はさておき作ったら報告よr(ry の場合…

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した

NLP

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopica…

大阪PRML読書会#6に参加した

大阪PRML読書会#6 - 大阪PRML読書会 | Doorkeeper に参加してきたPRML読みたいと思って買ってはいたものの、完全に積読状態で、さすがに一人で読むのはつらいなーというのもあっていい機会があればと思ってたところで、読書会を見つけて、ちょうど2章からと…

(ry

(ry という表現がなぜか気になったので、分析してみた(ryとは (イカリャクとは) [単語記事] - ニコニコ大百科とは (ryとは『以下略』を意味するネットスラングであ(ry 由来は、『(略)』とタイピングする際に、ローマ字で(ryaku)とする表記かr(ry つまりこ…

「ヤバい統計学」を読んだ

「ヤバい統計学」を読んだ全5章で各章に2つのエピソードとともに統計的思考について書かれている。 ファストパスと交通渋滞 ホウレン草とクレジットカード 大学入試とハリケーン保険 ドーピング検査とテロ対策 飛行機事故と宝くじ まとめるのが面倒なので面…

言語処理学会に参加しました

NLP

札幌であった言語処理学会第20回年次大会に参加してきました 1年ぶりの学会参加。 今年は3年ぶり?くらいの発表もしてきました。 発表内容はComainuをリリースしました - skozawa's blog もう論文も公開されてる http://www.anlp.jp/proceedings/annual_meet…

Comainuをリリースしました

中・長単位解析ツールComainuをリリースしました。Comainu | 中・長単位解析ツールダウンロードはsourceforgeからできます。 ソースファイルとモデルファイルをダウンロードしてください。 モデルファイルは解凍すると1Gくらいあるので注意してください。 中…

2014年

昨日新年会をした、そんなに飲みすぎたつもりはなかったけど、今日はあまり調子がよくなかった。 そんなことはさてより、2014年にやりたいことをぼんやり考えた。 技術を深める 去年はいろいろなことに手を出そうとして結局うまくいかなかった感じがするから…

2013年振り返り

2013年を簡単に振り返る。 去年はエンジニア1年目でエンジニアとして1人前になるのに精一杯だったし、今年の前半もそんな感じだったと思う。まあ、それなりにまともになったんじゃないかと思ってる。 後半からは少し余裕がでてきたので、色々できるといいな…

技術の見せ方について

入社してから初めて、3日間の開発合宿に参加した。 開発したものをどの程度書いていいか分からないのでとりあえず感じたことを書く。今回の合宿で一番勉強になったのが「技術をどう見せる」か。 合宿では、普段業務ではあまり行っていないデータ分析や、自然…

Japan.R 2013に参加してきました

R

最近Rを勉強したいなーと思いつつなかなか勉強できてない。とりあえず勉強会に参加してみようと思って、Japan.Rに参加してきました。 http://atnd.org/events/446824件の発表と11件のLTがあって、全部はメモれなかったけど、適当なメモを書いておく。 Yahoo!…

「社長の教科書」を読んだ

経営とかよくわからないし、これまで知ろうとしたことなかったけど、少し興味が出てきたので、読んでみた。 章構成は 経営という仕事と経営に対する考え方 ビジョン・リネンが会社の根本 戦略立案の基本原則 マーケティングでお客さま第一を具体化する 会計…

WordNet利用メモ

WordNet、ずっと知ってはいたけど、ちゃんと触ったことなかった。最近WordNetを少し触る機会があったので、メモ。 インストール WordNetのサイトからダウンロードしてきてインストール http://wordnet.princeton.edu/wordnet/download/current-version/ http…