空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

はじめまして

はじめまして。こんにちは。空飛ぶチンアナゴといいます。
疫学と統計を嗜むチンアナゴです。社会不適合者の証であるPh.Dとかいうのを持っています。

主な作業環境について

主に使用している言語は

  1. STATA
  2. python(Anaconda, Spyder)
  3. SQL

の三つです。たまにRやSAS University Editionも使いますがメインのツールではありません。

主にSTATAを使用している理由

単純に大学院自体の研究室がSTATAを使っていたからという理由以外にありません。
STATAで慣れてしまえば、csvファイル読み込んで、データをクリーニングして解析するまで基本的に一貫してSTATAで行うことができます。
特にver14からはUnicodeUTF-8)に対応するようになったので、全角文字と半角文字の区別がつかない担当者が作ったデータでもとりあえず読み込ませてから対応することができるようになりました。
「1」と「1」の区別がつかない人が入力したデーターをver13以前で読み込ませるとこの極寒な時期でも暖房がいらないくらいあったまるのでこれはとてもありがたいことです。

pythonを使う時

STATA ver16からpythonがSTATA上でシームレスに使える*1ようになったのでpythonも使い始めるようになりました。
主にSHIFT JIS*2エンコードされたcsvをよこせと言われたときにpandasのto_csv()で書き出します。

あとはたくさんのcsvファイルを読み込ませてひとまとめのデータセットにするときなんかも便利です。
STATAだとcsvファイルの数だけdtaファイルができますし、SQLはこの手のループ処理があまり得意でないようなのでpythonでやった方が早いかなーという印象。

機械学習はよくわかりませぬ。

SQLの話

最近仕事で使い始めました。
とりあえずサーバーにデータベースのテーブルを作ってcsvファイルを読み込ませてがっちゃんこするくらいは使えます。あとはデータの取り出しもできるはずです。
あまりSQLサーバー上でどうこうということはやっていません。

そのほか

基本的にMacでのお話です。Windowsはほとんど使ったことないのでわかりません。
textエディタはCotEditorを主に使っています。なんらかのテキストエディタは入れておいて損はないと思います。
pythonとRはAnaconda上で使っています。pythonはSpyder、RはRStudioを使ってコーディングしています。
たまに趣味でSAS University Editionを使ったりします。
SPSSは生まれてこのかたほとんど触ったことがありません。

こんな私ですが週1ぐらいを目標にがんばって更新していきたいと思います。
よろしくお願いします。

*1:というと若干語弊がありますが

*2:実際はcp932のことが多い