日本語形態素解析システム JUMANをインストールしてみる
Amazon Machine Learningを触ってみたいと思っていたのですが、機械学習系はデータの事前処理が重要らしいとのことなので遠回りをして先にデータ解析をやってみようと思った次第。 とりあえず京大が「日本語形態 […]
目次
Amazon Machine Learningを触ってみたいと思っていたのですが、機械学習系はデータの事前処理が重要らしいとのことなので遠回りをして先にデータ解析をやってみようと思った次第。
とりあえず京大が「日本語形態素解析システム JUMAN」なるものを公開していたのでインストールしてざっと使ってみました。
インストール
Macの場合、配布元から「JUMAN Ver.7.01 (bzip2圧縮; 4,286,891 bytes)」をダウンロードします。
そこからは黒くない白い画面(ターミナル)を開いてこんな感じでコマンドを打ちます。
[bash]
$ cd ~/Downloads
$ tar xvjf juman-7.01.tar.bz2
$ cd juman-7.01
$ ./configure
$ make
$ make install
[/bash]
「権限がない」って言われたらsudoつけてみてください。
「juman」コマンドをいれて怒られなければ成功です。
使ってみる
ドキュメントにはtxtファイルを用意して読み込ませている例があるのでとりあえず作って動かしてみる。
[bash]
$ vim sample.txt
DBペディア(英語:DBpedia)は、ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクトである。抽出された構造化情報は、World Wide Web上で利用可能となる[2]。DBペディアを利用すると、ウィキペディアのリソースおよび外部の関連するデータセットへのリンクから、関係やプロパティを問い合わせることができる[3]。ティム・バーナーズ=リーは、DBペディアはリンクト・データ・プロジェクトの中で有名なものの1つだ、と述べている[4]。
ウィキペディア日本語版の記事を利用したDBpedia Japaneseは、国立情報学研究所によって2012年5月9日に公開された[5]。
% juman < sample.txt
DB DB DB 未定義語 15 その他 1 * 0 * 0 NIL
ペディア ペディア ペディア 未定義語 15 カタカナ 2 * 0 * 0 NIL
( ( ( 特殊 1 括弧始 3 * 0 * 0 NIL
英語 えいご 英語 名詞 6 普通名詞 1 * 0 * 0 "代表表記:英語/えいご カテゴリ:抽象物 ドメイン:教育・学習"
: : : 特殊 1 記号 5 * 0 * 0 NIL
DBpedia DBpedia DBpedia 未定義語 15 その他 1 * 0 * 0 NIL
) ) ) 特殊 1 括弧終 4 * 0 * 0 NIL
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
、 、 、 特殊 1 読点 2 * 0 * 0 NIL
ウィキペディア ウィキペディア ウィキペディア 名詞 6 普通名詞 1 * 0 * 0 "自動獲得:Wikipedia Wikipedia上位語:インターネット百科事典 代表表記:ウィキペディア/ウィキペディア"
から から から 助詞 9 格助詞 1 * 0 * 0 NIL
の の の 助詞 9 接続助詞 3 * 0 * 0 NIL
構造 こうぞう 構造 名詞 6 普通名詞 1 * 0 * 0 "代表表記:構造/こうぞう カテゴリ:抽象物"
化 か 化 接尾辞 14 名詞性名詞接尾辞 2 * 0 * 0 "代表表記:化/か 準内容語 カテゴリ:抽象物 換言:N+:Nになる;N+:Nにする"
コンテント コンテント コンテント 未定義語 15 カタカナ 2 * 0 * 0 NIL
の の の 助詞 9 接続助詞 3 * 0 * 0 NIL
抽出 ちゅうしゅつ 抽出 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:抽出/ちゅうしゅつ カテゴリ:抽象物"
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
目的 もくてき 目的 名詞 6 普通名詞 1 * 0 * 0 "代表表記:目的/もくてき 〜を〜に構成語 カテゴリ:抽象物"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
[/bash]
*サンプルテキストはWikipediaより
GETでデータを取得できればいろいろ捗りそうなので、時間をみていろいろ試してみます。
この辺うまく使ったら要約自動で作れそうでブログ書くの楽にならねーかな。。