空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

データのimport周りの進化

R for Data Scienceの2版で充実したところは間違いなくデータのimport周りだなぁと思うので、ちょっと比較してみます。
ちなみに初版のデータのimportは
r4ds.had.co.nz
のパートのみです。
もちろん2版でも
r4ds.hadley.nz
csvファイルをimportする過程についての記載はあります。
ただ、それ以外についても記載が増えたように思えます。

第2版で新規に追加された項目

Spreadsheets

r4ds.hadley.nz
初学者はよくExcelのSpreadsheetsを使うので、これはありがたい記載だなぁと思います。

Databases

r4ds.hadley.nz
これも自分で調べようとするとなかなか大変なのですが、綺麗にまとまっています。
SQLの基本的な解説もあるので初学者にも優しい記載になっています。

Arrow

r4ds.hadley.nz
すごく大きなデータを扱う時に便利なツールというくらいしか認識がありませんが、こちらについても記載があります。

Hierarchical data

r4ds.hadley.nz
多次元のデータについての記載でしょうか。
こちらもあまり自分が使わない分野ので上手に説明できません。

Web scraping

r4ds.hadley.nz
PythonでおなじみのWeb scraping、こちらもRでもできますよという紹介です。

まとめ

とりあえずSpreadsheetsは最低限読み込んで置いて損はないと思います。余裕があればDatabasesも見ておくと良いです。他は必要になったら読めばいいのではないでしょうか?
いずれにせよRでのデータのimportについて必要にして十分な内容が織り込まれているので実際の本が発売されるのが今から楽しみです。