『Exploratory Data Analysis』

John W. Tukey

(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])

ここのところ統計学者 John W. Tukey の図的思考の展開を追跡している.まずは彼の Magnum Opus である本書『Exploratory Data Analysis』をひもとくしかない.本書の書評のひとつ:

  1. R. M. Church (1979) How to look at data: A review of John W. Tukey's Exploratory Data Analysis. Journal of the Experimental Analysis of Behavior, 31(3): 433–440. (open access)

をながめると,Tukey の提唱する「EDA」は他の統計学者の関心を惹きつつも,同時に推測統計学から記述統計学への“撤退”ではないかと警戒されていたフシがある.しかし,本書が出版される「夜明け前」に書かれた一連の記事:

  1. John W. Tukey (1962a) The future of data analysis. Annals of Mathematical Statistics, 33(1):1-67. (open access)
  2. John W. Tukey (1962b) Correction. Annals of Mathematical Statistics, 33(2):812. (open access)
  3. John W. Tukey (1972) Some graphic and semigraphic displays. Pp. 293-316 in: T. A. Bancroft (ed.) Statistical Papers in Honor of George W. Snedecor (Iowa State University Press, Ames). (open access)
  4. F. J. Anscombe (1973) Graphs in statistical analysis. The American Statistician, 27(1):17-21. (pdf)

を読むと,グラフィクスの利用を重視する Tukey の EDA をふつうの統計学の文脈で読むのは実はまちがっているのではないか? 

ついでに,Tukey の伝記記事など:

  1. F. R. Anscombe (2003) Quiet contributor: The civic career and times of John W. Tukey. Statistical Science, 18(3):287-310. (open access)
  2. Peter McCullagh (2003) John Wilder Tukey. 16 June 1915 – 26 July 2000. Biographical Memoirs of Fellows of the Royal Society, 49:537-555 (pdf)
  3. David R. Brillinger (2009) John Wilder Tukey 1915 - 2000: A biographical memoir. (pdf)

データ視覚化の歴史をチャート化した:M. Friendly & D. J. Denis 2001. Milestones in the history of thematic cartography, statistical graphics, and data visualizationは実にすばらしい![pdfドキュメントもある]

データ可視化と統計グラフィクスの話題はさらに続く.筋のいい脈を掘り進むと自然に別の脈に遭遇するものだ.John Tukey を掘っていたら Edgar Anderson と再開した.Rのテストデータとしていたるところで頻繁に引用されている「iris」データの出典はほかならない Edgar Anderson だ:Edgar Anderson (1935) The irises of the Gaspe Peninsula. Bulletin of the American Iris Society, 59: 2–5.出自から言えば,実験分類学を実践する植物分類学者が Edgar Anderson の表看板だったが,後年には生物統計学の理論に関するアウトプットが多くなっていく.ずいぶん前に読んだ:Joel B. Hagen (2003) The statistical frame of mind in systematic biology from Quantitative Zoology to Biometry. Journal of the History of Biology, 36: 353-384 を読み返す.

1930年代に Ronald A. Fisher が「判別分析(discriminant analysis)」の方法論を提唱した論文によって Edgar Anderson の Iris データは一躍有名になった:R. A. Fisher (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7: 179–188.Fisher は線形判別関数を考案することにより,四変量の形態データに基づく“数値的”な種間判別の技法を開発した.しかし,それは必ずしもデータの“視覚化”という点からいえば満足できるものではない.

Edgar Anderson は John W. Tukey にも深い影響を及ぼしたことが知られている.1959年に Tukey のもとにいた Edgar Anderson は Iris データを用いて多変量データの視覚化の新しい方法を模索していた.このころ Edgar Anderson が開発した「イデオグラフ(ideograph)」という視覚化法は Tukey にとっては受け入れがたかったが,データの視覚化の重要性を Tukey に認識させた貢献は大きかった.Tukey の主著『Exploratory Data Analysis』(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])が Edgar Anderson に捧げられているのはそういう背景があった.統計グラフィクスの観点からみてたいへん興味深いつながりである.

Edgar Anderson の伝記情報いろいろ:

  • G. Ledyard Stebbins (1978) Edgar Anderson 1897-1969: A biographical Memoir → pdf
  • Kim Kleinman (1999) His Own Synthesis: Corn, Edgar Anderson, and Evolutionary Theory in the 1940s. Journal of the History of Biology, 32 (2): 293 - 320.
  • Kim Kleinman (2002) How graphical innovations assisted Edgar Anderson's discoveries in evolutionary biology. Chance, 15(3): 17 - 21

—— きりがなく鉱脈掘削が続きそうな気配が濃厚になってきた.