NLP

長単位解析器Comainu 0.72をリリースしました

中・長単位解析器Comainuのバージョン0.72をリリースしました。 バグフィックスです。リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で…

長単位解析器Comainu 0.71をリリースしました

中・長単位解析器Comainuのバージョン0.71をリリースしました。 機能的な変更点はなく、unidic2 (unidic.db) の公開への対応が主な変更です。 unidic2を近日リリース予定としてから1年たってしまいました(すいません...)が、unidic2の一般配布に関する確認が…

言語処理学会に参加した

NLP

今年は京都(京大)であったということもあって、言語処理学会第21回年次大会に参加してきた。 16~21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。 本会議で発表を聞いたものの中から覚えてい…

論文紹介:HEADY: News headline abstraction through event pattern clustering

NLP

2週間くらい前になるけど、社内輪読会があって論文紹介をした。 今回はACL2013の HEADY: News headline abstraction through event pattern clustering を紹介した。 内容 同じ内容のニュースの集合に対してヘッドラインを生成する話。固有表現を汎化してパ…

日本語WordNet-Affect構築のnltk3対応

NLP

前に作った、日本語WordNet-Affect作るためのスクリプトが動かないとコメントをもらったので修正した。 日本語WordNet-Affectの構築 - skozawa's blog python2、nltk2系だと動いていたけど、バージョンを固定しないとnltk3が入るようになっていつの間にか動…

論文紹介:Active Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracy

NLP

今日は久々に自分の担当の社内輪読会だった。 今回はACL2014のActive Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracyを紹介した。ACL2014読み会が色んなところで開催されていたと思うけど、た…

テキストマイニングシンポジウムに参加した

NLP

テキストマイニングシンポジウムに参加した。 第5回 テキストマイニング・シンポジウム:参加募集 - 言語理解とコミュニケーション研究会 1日目は企業の方の話が多めで公にできないことも結構あるみたいだった。 Twitterから抽出したプロファイルデータと購…

CabochaとComainuをDockerで動かす

下の記事を見て、研究とかで使われるツールでちょっとインストールとかが複雑なものはもうDockerで配布したほうがいいのかなと思った。 専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました - CreateField Blogなので、試しにCabochaとC…

文節境界解析のラベルと性能

NLP

文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。 前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近…

社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した

NLP

社内輪読会で論文を紹介した。 今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。 内容 ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNE…

Comainu for 中古和文

中古和文版の長単位解析Comainuを作って、リリースした。https://sourceforge.jp/projects/comainu-emj/ BCCWJ(現代日本語書き言葉均衡コーパス)を作るときに、長単位解析をしていて、現代文に関しては終わったのだけど、そのあと中古和文でもという話があっ…

日本語WordNet-Affectの構築

NLP

日本語版のWordNet-Affectが欲しかったので構築した。 WordNet-Affect WordNet-AffectはWordNetに対して感情情報を付与したもので、感情分析などに利用されている言語資源。 WordNet-Affect: an Affective Extension of WordNet日本語のWordNet-Affectを構築…

言語モデルで(ryを解く

NLP

以前、(ryを分析したけど、そのときに気になっていた言語モデルで(ryが推定できるかを少し試してみた。 (ry - skozawa's blog 結果としては思っていたよりできなかった。 問題設定 基本的には穴埋め問題で、 まぁ、冗談はさておき作ったら報告よr(ry の場合…

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した

NLP

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopica…

言語処理学会に参加しました

NLP

札幌であった言語処理学会第20回年次大会に参加してきました 1年ぶりの学会参加。 今年は3年ぶり?くらいの発表もしてきました。 発表内容はComainuをリリースしました - skozawa's blog もう論文も公開されてる http://www.anlp.jp/proceedings/annual_meet…

Comainuをリリースしました

中・長単位解析ツールComainuをリリースしました。Comainu | 中・長単位解析ツールダウンロードはsourceforgeからできます。 ソースファイルとモデルファイルをダウンロードしてください。 モデルファイルは解凍すると1Gくらいあるので注意してください。 中…