RMeCabをMac、しかもUTF-8環境で使いたいという条件で色々やって大変だったので、過程をメモしておきます。
ついでにcondaをメインで使っている都合上、Homebrewはインストールしないものとして環境を構築します。また、前提としてXcodeからコンパイラーはインストールされているものとします。
さらにインストールするMeCabは本体が「mecab-0.996.tar.gz」、辞書が「mecab-ipadic-2.7.0-20070801.tar.gz」とします。
MeCabのインストール
taku910.github.io
公式ドキュメントのサンプルコード従って脳死でインストールすればいいなんて甘い考えはまず捨てなければいけません。
それなりにコードの改変は必要になるのでそのつもりでおこないましょう。
1. MeCabのダウンロードとインストール
MeCabをサイトからダウンロードしたのち、ターミナルを起動して、ターミナルに
tar zxfv ダウンロードしたMeCabの絶対パス
を入力する。そうすると解凍したファイルがUserフォルダーに展開されるので、
cd mecab-0.996 ./configure --with-charset=utf8
と入力する。./configureのあとに半角スペースを入れて「--with-charset=utf8」と入力するのが重要です。
問題なければ、
make make check
でインストールの準備をします。
ここでエラーを吐かなければ
sudo make install
でインストールを実行する。
管理者権限で入れない場合は、
soyorogu.net
のあたりを参考にしてください。
2. 辞書のインストール
辞書のインストールがぶっちゃけめんどくさい。
デフォルトの辞書はEUCでエンコードされており、これが原因でUTF-8環境で使えないことから辞書をUTF-8でエンコードし直してからインストールをしなければいけません。
事前にnkfコマンドをインストールしておく
ファイルのエンコードを変えるためにnkfコマンドを使うので、これを事前にインストールしておきます。
ja.osdn.net
からnkf 2.1.5をダウンロードしてインストールします。
bashを用いたインストール方法については
blog.jicoman.info
を参照してください。
準備ができたらインストール
tar zxfv ダウンロードした辞書の絶対パス cd mecab-ipadic-2.7.0-20070801
までは本体のインストールと共通です。ここから
nkf -w --overwrite *.csv nkf -w --overwrite *.def
と入力してエンコードを変更します。
open dicrc
でファイルを開き10行目の「config-charset = EUC-JP」を「config-charset = UTF-8」に書き換えファイルを上書きします。
あとは本体の時と同様に
./configure make sudo make install
でインストールします。
色々トラブルが起きやすいパートであるため、つまづいたら解凍するところからやり直しましょう。
3. 動作確認
ターミナルで
mecab
と入力して適当な文章を入れてみましょう。
文字化けなく進めたところで、RMeCabのインストールに進むことができます。
RMeCabのインストール
ここまでできればあとはRMeCabをインストールするだけです。
rmecab.jp
最新のバージョンであれば公式のドキュメントにあるように
install.packages("RMeCab", repos = "http://rmecab.jp/R")
でインストールすることができます。