空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

1.2 練習問題の解答と解説

f:id:flying-spotted-garden-eel:20220214200720p:plain

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することや解説を考えることが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

1. ggplot(data = mpg)を実行しなさい。どうなるか

これはもう

ggplot(data = mpg)

を単純に実行すればわかります。
f:id:flying-spotted-garden-eel:20220214091820p:plain
実際にこのコードを実行するとこのような灰色の画像ができます。
これは、あくまでも関数ggplotにこのデータセットを使うということしか宣言していないので、それ以外の事象は起きないからです。

2. mtcarsには何行あるか。何列あるか。

単純にコンソールに

mtcars

とタイプしても何行何列あるか出てこないので、

?mtcars

でヘルプを見るよいでしょう。

A data frame with 32 observations on 11 (numeric) variables.

と記載がありますので、行数は32行、列数は各車種の名前の列も含めて12列となります。

3. drv変数は何を記述するか? ?mpgのヘルプを読んで見つけなさい。

これはヘルプの通りなので省略します。

4. hwyとcylの散布図を作りなさい

ggplot(data = mpg) + 
  geom_point(mapping =  aes(x = hwy, y = cyl))

f:id:flying-spotted-garden-eel:20220214092551p:plain
6ページのグラフテンプレートの通りです。

5. class対drvの散布図はどうなるか。なぜプロットが役に立たないか。

ggplot(data = mpg) +
  geom_point(mapping =  aes(x = class, y = drv))

のコードで散布図を描くことは可能です。
f:id:flying-spotted-garden-eel:20220214092839p:plain
この散布図から読み取れるのはこのデータセットに含まれる車種に対して、存在しない駆動系がどれなのかはわかります。しかし、点が重なってしまうため、各車種に対してその駆動系がどのくらいいるのかはわかりません。
このようなカテゴリー変数とカテゴリー変数の関係を見たい場合は散布図ではなくクロス集計表で見るのがよいかと思われます。

xtabs(~ drv + class, data = mpg)
drv / class 2seater compact midsize minivan pickup subcompact suv
4 0 12 3 0 33 4 51
f 0 35 38 11 0 22 0
r 5 0 0 0 0 9 11