空飛ぶチンアナゴの統計解析日記

統計解析を嗜むチンアナゴのメモ帳です

3.3 練習問題の解答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. 欠損値を頭から整列させるためにarrange()をどのように使えば良いか(ヒント:is.na()を使う)。
  • 2. flightsを整列して、遅延がもっとも大きかった便を探す。最も朝早く出発したフライトを探すにはどうするか。
    • 2-1. flightsを整列して、遅延がもっとも大きかった便を探す。
    • 2-2. 最も朝早く出発したフライトを探すにはどうするか。
  • 3. flightsを整列して、最速のフライトを探す(ヒント:距離を飛行時間で割れば平均速度が求められる)。
  • 4. どのフライトが最長距離を飛んだか。最短距離のフライトはどれか
続きを読む

RのNAの扱い

STATAだと.のような欠損値(missing values)はどの値よりも大きいという扱いになっているのだけど、RはNAの扱いはどうなのか調べてみたけど、ドキュメントに記載がなくて悩む。

cran.r-project.org
cranのイントロにもなし。
www.rdocumentation.org
RDocumentationにもなさそう。

この辺りの記載について探しています。

3.2 練習問題の解答と解説

注意書き
当該記事には「Rではじめるデータサイエンス」のネタバレを多数含みます。
自分で回答することが一番の力になりますのでなるべく自力で回答するようよろしくお願いいたします。

  • 1. 次のようなフライトを探す。
    • a.到着が2時間以上遅れた
    • b. ヒューストン(IAHまたはHOUへのフライト)
    • c. United、American、またはDeltaによるフライト
    • d. 夏季(7月から9月)のフライト
    • e. 到着が2時間を超えて遅れたが、出発が遅れなかったフライト
    • f. 遅延は少なくとも1時間を超えたが、運行では30分以上取り返したフライト
    • g. 深夜0時から午前6時まで(深夜0時、午前6時も含む)のフライト
  • 2. dplyerのbetween()は何をするか。問題1の中でこれを使って答えを簡単化できるか。
  • 3. dep_timeが欠損値の便はいくつあるか。他に欠損している変数は何か。これらの行は何を表すか。
    • a) dep_timeが欠損値の便はいくつあるか
    • b) 他に欠損している変数は何か
    • c) これらの行は何を表すか
  • 4. NA^0はなぜ欠損値にならないのか。NA|TRUE、FALSE & NAはなぜ欠損値にならないのか。一般規則を導けるか(NA * 0はややこしい反例となる)。
    • NA^0はなぜ欠損値にならないのか
    • NA|TRUE、FALSE & NAはなぜ欠損値にならないのか
    • 一般規則を導けるか
続きを読む

RMeCabをMacで使いたいという話

RMeCabをMac、しかもUTF-8環境で使いたいという条件で色々やって大変だったので、過程をメモしておきます。
ついでにcondaをメインで使っている都合上、Homebrewはインストールしないものとして環境を構築します。また、前提としてXcodeからコンパイラーはインストールされているものとします。
さらにインストールするMeCabは本体が「mecab-0.996.tar.gz」、辞書が「mecab-ipadic-2.7.0-20070801.tar.gz」とします。

  • MeCabのインストール
    • 1. MeCabのダウンロードとインストール
    • 2. 辞書のインストール
      • 事前にnkfコマンドをインストールしておく
      • 準備ができたらインストール
    • 3. 動作確認
  • RMeCabのインストール
  • 参考文献(ありがとうございます)
続きを読む

わりと新しめのMacを使ったRの日本語化

.Rprofileの日本語のフォントの設定をどうしたらいいものか非常に迷う。
今のMontereyに入っているデフォルトの日本語フォントってなんだっけ? って顔をしている。

日本語のマルチレベル分析の教科書


保健医療従事者のためのマルチレベル分析活用ナビ | 藤野 善久, 近藤 尚己, 竹内 文乃 |本 | 通販 | Amazon
そういえば、こっちの教科書を紹介するのを忘れていたので一応紹介。
どうしても2013年と古い教科書なので、コード類が少し古くなっているのがなかなかネック。
とはいえ日本語のマルチレベル分析の教科書としては使い勝手が良いのでやはりオススメ。