はじめまして。こんにちは。空飛ぶチンアナゴといいます。
疫学と統計を嗜むチンアナゴです。社会不適合者の証であるPh.Dとかいうのを持っています。
主にSTATAを使用している理由
単純に大学院自体の研究室がSTATAを使っていたからという理由以外にありません。
STATAで慣れてしまえば、csvファイル読み込んで、データをクリーニングして解析するまで基本的に一貫してSTATAで行うことができます。
特にver14からはUnicode(UTF-8)に対応するようになったので、全角文字と半角文字の区別がつかない担当者が作ったデータでもとりあえず読み込ませてから対応することができるようになりました。
「1」と「1」の区別がつかない人が入力したデーターをver13以前で読み込ませるとこの極寒な時期でも暖房がいらないくらいあったまるのでこれはとてもありがたいことです。
pythonを使う時
STATA ver16からpythonがSTATA上でシームレスに使える*1ようになったのでpythonも使い始めるようになりました。
主にSHIFT JIS*2でエンコードされたcsvをよこせと言われたときにpandasのto_csv()で書き出します。
あとはたくさんのcsvファイルを読み込ませてひとまとめのデータセットにするときなんかも便利です。
STATAだとcsvファイルの数だけdtaファイルができますし、SQLはこの手のループ処理があまり得意でないようなのでpythonでやった方が早いかなーという印象。
機械学習はよくわかりませぬ。
SQLの話
最近仕事で使い始めました。
とりあえずサーバーにデータベースのテーブルを作ってcsvファイルを読み込ませてがっちゃんこするくらいは使えます。あとはデータの取り出しもできるはずです。
あまりSQLサーバー上でどうこうということはやっていません。