<分割表のカイ二乗適合度検定>

SAS の freq で適合度検定のためのカイ2乗値を計算しようと思ったが,独立性の検定が自然にできるのに,適合度検定ができない(!?).
これまであまり使わなかったので,電卓で計算したり,ちょこっとプログラムを書いたりして済ませてきたが,今回たくさんのカイ二乗値を求めることになり改めて気が付いた.
しかし,実は Release 6.12 から可能になっていた.(それ以前はできなかったのか!).どこかでアナウンスされたとは思うが興味がなくて記憶に残っていなかったのであろう.ところが,指定法がオンラインマニュアルに掲載されていないではないか.オンラインマニュアルは紙マニュアルより常に新しいのではなかったのか・・・.仕方なく,まだ馴染めない Version 8 のオンラインマニュアルを見る.なお,このバージョンでは「正確な検定」をするオプション( exact )が追加されている.

▼プログラム例:
メンデルの遺伝の法則の「独立の法則」が主張されたエンドウの実験データを使う.DATA step がスマートではないが,実際にはマクロ内部でオブザベーションを生成しているため cards ステートメントを使わない書法を採用しているからである(気にすることはないと思うが).

data mendel81 ;
    type = 1 ; f = 315 ; output ;
    type = 2 ; f = 101 ; output ;
    type = 3 ; f = 108 ; output ;
    type = 4 ; f =  32 ; output ;
run ;

※ proc freq では testp = ( ) オプションで帰無仮説の比率(理論比率)を指定する.
proc freq data = mendel81 ;
    tables type / testp = ( 0.5625 0.1875 0.1875 0.0625 ) ;
    weight f ;
run ;

※ 出力結果は以下のようになる.
                               Test   Cumulative  Cumulative
TYPE   Frequency   Percent   Percent   Frequency    Percent
------------------------------------------------------------
   1        315      56.7      56.3         315       56.7
   2        101      18.2      18.8         416       74.8
   3        108      19.4      18.8         524       94.2
   4         32       5.8       6.3         556      100.0


         Chi-Square Test for Specified Proportions
         -----------------------------------------
       Statistic = 0.470     DF = 3     Prob = 0.925

※ 比率でなく, testf = ( ) で帰無仮説の度数(期待度数)を指定することもできる.
proc freq data = mendel81 ;
    tables type / testf = ( 312.75 104.25 104.25 34.75 ) ;
    weight f ;
run ;
※ 出力結果は以下のようになる.
                        Test              Cumulative  Cumulative
  TYPE   Frequency   Frequency   Percent   Frequency    Percent
  --------------------------------------------------------------
     1        315      312.75      56.7         315       56.7
     2        101      104.25      18.2         416       74.8
     3        108      104.25      19.4         524       94.2
     4         32       34.75       5.8         556      100.0


            Chi-Square Test for Specified Frequencies
            -----------------------------------------
          Statistic = 0.470     DF = 3     Prob = 0.925

▼メンデルの有名なデータは,以下からとった.
メンデル「植物の雑種に関する実験」(中央公論社『世界の名著・現代の科学T』)

このデータは,1865年2月8日,および3月8日の集会(ブルノ自然研究会)で口頭発表されたのが初出である.翌年,論文として出版された.

Mendel, G. ( 1866 ) Versuche uber Pflanzenhybriden . Verhandlungen des Naturforschenden Vereins in Brunn . Bd. 4 .

このデータは遺伝の法則を発見したから有名なだけでなく,統計学的にも有名である.それは Fisher が以下の論文で適合度検定をしてみて「当てはまりすぎ」と主張したからである.この実験データには理論どおりに観測されたいと願う心から実験過程で「捏造」された疑念がある.

Fisher, R.A. (1936). Has Mendel's Work Been Rediscovered? Annals of Science 1, 115-137.

この件に関しては,ラオ『統計学とは何か』(丸善)も言及しており,歴史上の優れた科学者も「誤差」に関する感覚を持てなかった警鐘として使っている.

ブロード&ウェード『背信の科学者たち』(化学同人)には,この種の話が集められている.もちろんメンデルの問題も「メンデル神父への告発」として紹介されている.それどころか,ダーウイン,ニュートン,ガリレオなど世界最高の科学者の罪を紹介している.科学者の虚偽・欺瞞・剽窃・嫉妬・陥穽・姑息−−およそ人間の悪徳の集大成を科学者という人間が実現してきたかのようである.
酒井シヅ・三浦雅弘訳()科学の罠―過失と不正の科学史.工作舎 浜田知久馬(1999)学会・論文発表のための統計学.真興交易医書出版部