注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することや解説を考えることが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。
1. ggplot(data = mpg)を実行しなさい。どうなるか
これはもう
ggplot(data = mpg)
を単純に実行すればわかります。
実際にこのコードを実行するとこのような灰色の画像ができます。
これは、あくまでも関数ggplotにこのデータセットを使うということしか宣言していないので、それ以外の事象は起きないからです。
2. mtcarsには何行あるか。何列あるか。
単純にコンソールに
mtcars
とタイプしても何行何列あるか出てこないので、
?mtcars
でヘルプを見るよいでしょう。
A data frame with 32 observations on 11 (numeric) variables.
と記載がありますので、行数は32行、列数は各車種の名前の列も含めて12列となります。
3. drv変数は何を記述するか? ?mpgのヘルプを読んで見つけなさい。
これはヘルプの通りなので省略します。
4. hwyとcylの散布図を作りなさい
ggplot(data = mpg) + geom_point(mapping = aes(x = hwy, y = cyl))
6ページのグラフテンプレートの通りです。
5. class対drvの散布図はどうなるか。なぜプロットが役に立たないか。
ggplot(data = mpg) + geom_point(mapping = aes(x = class, y = drv))
のコードで散布図を描くことは可能です。
この散布図から読み取れるのはこのデータセットに含まれる車種に対して、存在しない駆動系がどれなのかはわかります。しかし、点が重なってしまうため、各車種に対してその駆動系がどのくらいいるのかはわかりません。
このようなカテゴリー変数とカテゴリー変数の関係を見たい場合は散布図ではなくクロス集計表で見るのがよいかと思われます。
xtabs(~ drv + class, data = mpg)
drv / class | 2seater | compact | midsize | minivan | pickup | subcompact | suv |
---|---|---|---|---|---|---|---|
4 | 0 | 12 | 3 | 0 | 33 | 4 | 51 |
f | 0 | 35 | 38 | 11 | 0 | 22 | 0 |
r | 5 | 0 | 0 | 0 | 0 | 9 | 11 |