空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

STATAを買うということ

STATAにも色々バージョンがあり、自費で買うとき迷うということはよくあると思います。
もちろん扱う予定のデータサイズによって違うけど、参考になれば幸いです。

取り扱えるデーターのサイズで考える

www.stata.com

Product features Stata/BE Stata/SE Stata/MP
データセットの最大の列数 2,048 32,767 120,000
データセットの最大の行数 2.14 billion 2.14 billion 20 billion
回帰分析における独立変数の最大数 798 10,998 65,532

だいたい比較するとこんな感じです。
一番安価なBEでも列数が2,048、行数21億なので、古典的な疫学調査であれば問題なく使えるでしょう。
使えるコマンドに差はありませんので、基本的に選ぶ理由はデータサイズと処理しなければならないデーターの量で決めると良いと思います。

一般的にはSEで十分?

とはいえ基本的にはBEだとやはり使える変数の数が物足りないというのがあります。
MPは大きなデータセットを高速で処理するには最適ですが、そもそもMPを必要とするデータセットを解析する機会があるかというと医療系の分野ではそうそうないように思えます。また、lassoのような機械学習をやるならMPという話もありますが、そもそもSTATAで機械学習というのがあまり一般的ではない気がします。
とはいえ、コンピューターのCore数とSTATAの指定Core数が離れていると処理速度が遅くなる*1といった話もあり、なるべく寄せた方がいいでしょう。もっとも8コアのCore i7に対してMP2コアとSE1コアでどれだけ差があるんだという話もありますが……
予算に余裕があるのであればMPを買ってもいいのだけど、そうでなければ基本的にSEを買っておけばいいのではないのかなという印象です。

おまけ:Stat/Transferについて

stattransfer.com
STATAの11ぐらいまでだと、Excelファイルがそのまま読み込めないのでStat/Transferで変換してどうこうなんてやってはいましたが、正直これを買わないといけないかと言われると基本的にいらないソフトになりました。
今だと、ExcelSASSPSSのファイルは全部読み込めるはずなので、そんなに困ることはないように思えます。
なのでよっぽど古い資産を使わないといけないとかいう縛りがない限りはもう買わなくてもいいかなと個人的には思います。