『Statistics : An Introduction Using R』

Michael J. Crawley

(2005年4月刊行,John Wiley & Sons,ISBN:0470022981



首都大学東京での集中講義に関係する本文部分(計200ページほど)はほぼ読了.これはとてもいい教科書ですねえ(独習書にもなる).学部生向けに書かれてあるので,予想される“致死ポイント”はうまく回避されているみたいだし.とくに,教える側にとっては,〈R〉を用いて,教材(テストデータ)をどのように「可視化」し,学生に要点を印象づけるかという手順が具体的に書かれているので,教壇でのプレゼンにすぐ役立てられそうだ.もちろん,今回の首都大学東京での集中講義にも反映させていただきます.

冒頭の「Preface」にはこう書かれている:




The approach adopted here involves virtually no statistical theory. Instead, the assumptions of the various statistical models are discussed at length, and the practice of exposing statistical models to rigorous criticism is encouraged. A philosophy of model simplification is developped in which the emphasis is placed on estimating effect sizes from data, and establishing confidence intervals for these estimates. The role of hypothesis testing at an arbitrary threshold of signufucance like α= 0.05 is played down.(p. xi:下線みなか)



仮説検定ではなく「モデル選択(“モデル単純化”)」が本書の中心テーマになっている.著者の言う“モデル単純化”とは,「最節約原理」に基づいて,与えられたデータに照らして相対的に単純なモデルを構築するということだ(pp. 7-8).その原理は,統計モデリングの総論にあたる第7章「Statistical Modelling」で詳細に議論されている:




  • パラメータや説明変数は少ない方が望ましい
  • 非線形よりも線形のモデリングが望ましい
  • モデルの仮定は少ない方が望ましい
  • ……


というような原則に要約できる(pp. 103-104).

この方針にしたがって,最初に仮定される「最大モデル」(maximal model:パラメータや変数をめいっぱい含んだモデル)を“オッカムの剃刀”によってどんどん削ぎ落としていく.逸脱度(degree of deviance)に影響しないパラメータや変数を削減することで,最終的に「最小十分モデル(minimal adequate model)」に到達する.本書では,回帰分析(第8章)や分散分析(第9章)など個別の分析方法に関して,この“モデル単純化”の原則を適用している.

モデル選択に関する一貫した姿勢と並んで特筆されるべきは,推定量の誤差評価に関する計算統計学的方法の重視だ.テキストの早い段階でブーツストラップを用いた推定量の信頼区間のつくり方が詳しく解説されている.そして,従来的な t 分布を用いた信頼区間との比較をした上で:




So which kind of confidence interval should you choose? I prefer the bootstrapped estimate because it makes fewer assumptions. (p.49)



これもまたオッカムの降臨か.

—— 個人的には,とてもなじみやすい(親和性の高い)統計学本だ.