MeCab(和布蕪)とは
公式ページのお言葉を借りると。
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します. ちなみに和布蕪(めかぶ)は, 作者の好物です.
です。はい。今回は自動でiTunesのふりがなを補完したいためにインストールしました。
MeCab本体のインストール
公式サイトからソースをダウンロードしてきます。今回は「mecab-0.98pre3.tar.gz」を利用しました。
解凍したらターミナルを起動し、cdコマンドで解凍したフォルダに移動します。
で、あとは普通にconfigure、make、そしてsudo make install。
$ cd ~/Download/mecab-0.98pre3
$ ./configure
$ make
$ sudo make install
そうすると、mecabというコマンドが使えるようになるはずです。まだ辞書が登録されていないので形態素解析はできませんが、バージョンを確認してみましょう。
$ mecab --version
mecab of 0.98pre3
正しくインストールできてそうです。
辞書のインストール
次に辞書をインストールします。公式サイトで推奨とされているIPA 辞書をインストールしてみます。「mecab-ipadic-2.7.0-20070801.tar.gz」を今回は利用しました。本体と同じく解凍してターミナルからcdコマンドで解凍したディレクトリに移動します。
本体と同じくconfigure、makeなのですが、文字コードをUTF8にしたいのでconfigureにオプションを付けます。installはいりません。
$ ./configure --with-charset=utf8
$ make
試してみる
インストールできたので形態素解析を試してみます。
形態素解析
$ mecab
すもももももももものうち //解析したい文を入力してEnter
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
よみがな
$mecab -Oyomi
日本語は難しい。 //解析したい文を入力してEnter
ニホンゴハムズカシイ。
できてます。
コマンドラインで一気に解析する場合は例えば次のようにすればできます。シェルスクリプト等で結果を利用するのに便利かも。
$ echo "引数で文は渡せないのでパイプで渡す" | mecab -Oyomi
MeCabの利用法等は他のサイト等でいろいろ紹介されていますのでそちらを参考にしてください。
MeCabでこのような使い方もできます
MacOSXのSafariブラウザで
形態素解析の結果を表示したり
APPLE辞書やウィキペディア
などの検索結果をブラウザ内で直接プリントアウトできたりします
その他
バーコード付き商品アイテムの作成やプリントアウトにも対応しています
またブラウザの操作だけでゆうちょ銀行の払込取扱票に直接プリントする機能もあったりします
ぜひお試しください
http://snowjobs.blog.jp/archives/cat_mecab.html (最後尾に最初の記事があります)
http://snowjobs.blog.jp/detail_item/201710011251/4547597950043