空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

RMeCabをMacで使いたいという話

RMeCabをMac、しかもUTF-8環境で使いたいという条件で色々やって大変だったので、過程をメモしておきます。
ついでにcondaをメインで使っている都合上、Homebrewはインストールしないものとして環境を構築します。また、前提としてXcodeからコンパイラーはインストールされているものとします。
さらにインストールするMeCabは本体が「mecab-0.996.tar.gz」、辞書が「mecab-ipadic-2.7.0-20070801.tar.gz」とします。

MeCabのインストール

taku910.github.io
公式ドキュメントのサンプルコード従って脳死でインストールすればいいなんて甘い考えはまず捨てなければいけません。
それなりにコードの改変は必要になるのでそのつもりでおこないましょう。

1. MeCabのダウンロードとインストール

MeCabをサイトからダウンロードしたのち、ターミナルを起動して、ターミナルに

tar zxfv ダウンロードしたMeCabの絶対パス

を入力する。そうすると解凍したファイルがUserフォルダーに展開されるので、

cd mecab-0.996
./configure --with-charset=utf8

と入力する。./configureのあとに半角スペースを入れて「--with-charset=utf8」と入力するのが重要です。
問題なければ、

make
make check

でインストールの準備をします。
ここでエラーを吐かなければ

sudo make install

でインストールを実行する。
管理者権限で入れない場合は、
soyorogu.net
のあたりを参考にしてください。

2. 辞書のインストール

辞書のインストールがぶっちゃけめんどくさい。
デフォルトの辞書はEUCエンコードされており、これが原因でUTF-8環境で使えないことから辞書をUTF-8エンコードし直してからインストールをしなければいけません。

事前にnkfコマンドをインストールしておく

ファイルのエンコードを変えるためにnkfコマンドを使うので、これを事前にインストールしておきます。
ja.osdn.net
からnkf 2.1.5をダウンロードしてインストールします。
bashを用いたインストール方法については
blog.jicoman.info
を参照してください。

準備ができたらインストール
tar zxfv ダウンロードした辞書の絶対パス
cd mecab-ipadic-2.7.0-20070801

までは本体のインストールと共通です。ここから

nkf -w --overwrite *.csv
nkf -w --overwrite *.def

と入力してエンコードを変更します。

open dicrc

でファイルを開き10行目の「config-charset = EUC-JP」を「config-charset = UTF-8」に書き換えファイルを上書きします。
あとは本体の時と同様に

./configure
make
sudo make install

でインストールします。
色々トラブルが起きやすいパートであるため、つまづいたら解凍するところからやり直しましょう。

3. 動作確認

ターミナルで

mecab

と入力して適当な文章を入れてみましょう。
文字化けなく進めたところで、RMeCabのインストールに進むことができます。

RMeCabのインストール

ここまでできればあとはRMeCabをインストールするだけです。
rmecab.jp
最新のバージョンであれば公式のドキュメントにあるように

install.packages("RMeCab", repos = "http://rmecab.jp/R")

でインストールすることができます。

参考文献(ありがとうございます)

qiita.com
qiita.com
qiita.com