空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

2. 練習問題の解答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. 次のコードはなぜまずいか。
  • 2. 次のRコマンドを修正して正しく実行するようにしなさい。
  • 3. Alt-Shift-kを押すとどうなるか。同じことをメニューを使って行うにはどうするか。
続きを読む

1.9 練習問題の回答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. 積み上げ棒グラフをcoord_polar()を使って円グラフに変換しなさい
    • 参考資料
  • 2. labs()は何をするか。ドキュメントを読みなさい。
  • 3. coord_quickmap()とcoord_map()とは、何が違うのか。
    • 参考資料
  • 4. 次のプロットは街中と高速道路との燃費について何を伝えるのか。なぜcoord_fixied()は重要なのか。geom_abline()は何をしているのか。
    • 1. 次のプロットは街中と高速道路との燃費について何を伝えるのか。
    • 2. なぜcoord_fixied()は重要なのか。
    • 3. geom_abline()は何をしているのか。
続きを読む

1.8 練習問題の回答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. このプロットの問題は何か。どうすれば改善できるか。
  • 2. geom_jitter()のどの引数がジッターの量を制御するか。
  • 3. geom_jitter()とgeom_count()を比較対照しなさい
  • 4. geom_boxplot()のデフォルトの位置調整は何か。それを示すmpgデータセットの可視化を作りなさい。
続きを読む

1.7 練習問題の回答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. stat_summary()のデフォルトgeomは何か。stat関数ではなくgeom関数を用いて先ほどのコードを書き直すにはどうするか。
    • stat_summary()のデフォルトgeomは何か。
    • stat関数ではなくgeom関数を用いて先ほどのコードを書き直すにはどうするか。
  • 2. geom_col()は何をするか。geom_bar()とどのように異なるか。
  • 3. ほとんどのgeomとstatは対になっており、一緒に使われる。ドキュメントを読んでこれらの対のすべてのリストを作る。何が共通しているか。
  • 4. stat_smooth()はどの変数を計算するか。振る舞いはどの引数が制御するか。
  • 5. 比率棒グラフでは、group=1に設定する必要がある。なぜか。言い換えると次の二つのグラフの問題は何か。
続きを読む

MySQLの新しいやつ

Macを新しくしたので、環境構築をしてMySQLをダウンロードしてインストールしたんですわ。
うん、なんというかすげー楽にMySQL Workbenchまでインストールできた。
びっくり。
MySQLのpathを認識させるとかそういうめんどくさいの一切なし。

便利になってるんだなーという日記でした。

STATAとSPSSで役立つチャンネル

www.youtube.com
そういえば、STATA公式のyoutubeチャンネルと並んでよく使うMike Crowson氏のチャンネルを紹介するのを忘れていたのでご紹介。
STATAだけではなくSPSSの解説もあり非常に役にたつ。

グループごとに連番を振りたい

STATAで言う所の

bysort グループ名: egen = seq()

みたいなことをpython、pandasでやりたい。

実際にやってみる

bysortに相当するのはgroupby()メソッドになる。
pandas.pydata.org
さて、これでデータフレームを指定のグループでまとめられた。
あとはグループごとに連番を代入するだけ。
連番の代入はcumcount()メソッドを使う。
pandas.pydata.org
なのでメソッドチェーンを用いて

データーフレーム['連番を突っ込む列'] = データフレーム.groupby('まとめたいグループ名').cumcount()

となる。

参考資料

stackoverflow.com