1.背景
「電子社会と大学教育」という対比は「理論と応用」に対応しそうである.社会が電子化したことによる影響はデータの大量高速処理という現象として,生活社会ではモバイル通信・通話の普及という現象として観察される.背景にある技術はコンピュータ・ネットワーク.
2.問題意識
電子社会のニーズに対して,大学における統計教育は効果的でないのではないか.そうであろうか.そもそも社会が必要としている統計手法とは何か.電子化によって従来からあるニーズに変化があるのか.
3.メディアにおける統計活用
各種団体・政府の統計調査の結果を(時には解説を含めて)読者に伝える.たとえば新聞各社は2005年の正月紙面で政府の人口統計を使い,連載する社もあった.
企業に関する財務情報や金融株式市場情報を伝える.アカデミアとの関連ではマクロ・ミクロ経済学,計量経済学.
内閣府を中心とする世論調査・社会調査を紙面で伝える.メディア自身が実施する世論調査の結果を報道する.世論調査の結果は政策に関する国民の意識動向であるとみなされている.アカデミアとの関連では社会学,政治学.
研究機関・調査機関・個別企業などが実施したマーケティング・リサーチの結果を報道することも多い.アカデミアとの関連では経営学.
メディアは統計を「報道」するという伝達者の役割が中心であるが,メディア自身が統計データを「作成」するという立場になっていることもある.従って,伝達責任だけでなく統計データの製造責任も負うことになる.
伝達者には「正しい」報道が要請され,誤報はそもそも許されない当然の前提になっている.だからメディアは,正確さに加えて,それが「ニュース」であることを重要視する.ニュース性とは社会への「影響力」の大きさだけでなく,特ダネである「独自性」や,他社に先んじて報道する「速報性」なども含まれる.それが正確さに対立しかねない要請となる危険性もある.
統計データが「どのように作られたか」という情報はニュースではないことが多いので報道されない.全数調査なのか,標本調査なのか(標本調査であれば代表している母集団や誤差の表明はどこでなされているのか),ケーススタディなのか.このようなことは省略されるか,小さくしか扱わない.
4.電子社会における統計手法の需要
電子社会の担い手であるビジネスマンは,多変量解析など日常的に利用している.それは使いやすいSWが普及しているからである.線形多変量解析ばかりでなく,非線形のニューラルネットですら,データマイニングの普及もあって利用されている.その手法に需要があるというよりも,SWに搭載されたという事情が大きい.むろんSW会社が搭載するにあたり市場性を見込んでいるという背景はある.マニュアルには easy to use と宣伝されている.マーケティング分野では階層ベイズが流行しているが,MCMCを含む使いやすいSWが大衆的パッケージにはないので,ビジネスマンが利用している状況ではない.
ビジネスマンが多変量解析を利用していることと,データ解析が上手にできることとは別である.正しく応用できているかも別である.すなわち多変量解析をよく理解しているかという問題とは別である.ビジネスマン向け「How to use 本」を頼りに使っている場合も多い.出力された統計量の解釈は,必ずしも簡単ではないが,ビジネスマンは忙しいので勇気と無邪気によって天下り式にやってのける.
ビジネスマンは線形・非線形の多変量解析などを記述的に使っているのに,検定・推定には弱いし,使いたがらない.だから出力結果をみて「相関係数が有意だったから,相関関係が強いのです」と主張してしまうこともある.データマイニングをする状況が,統計的推測を無力化しているということもあるが,標本調査においてすら誤差に関して考察する習慣が少ない.苦手意識がある.最近きたメールにビジネスマン向けセミナーのタイトルが「統計が苦手でも大丈夫!リサーチャー実務のためのデータ分析基礎」とあった.統計を使わざるを得ない状況にありつつ,統計がビジネスマンの敷居になっている.
いろいろな手法のどれにニーズがあるかという以前に,その基礎となっている統計学的な考え方を身につけることにニーズがあるとも見られる.
5,大学における統計教育
大学は,社会における応用におもねることなく,基礎理論や,本質的に重要な考え方を学ばせるべきである.学生は卒業すると応用の立場になる.その時になって基礎的なこと,理論的なことの不足を後悔する.
コンピュータやSWの使い方を教えてもかまわないが,第一義的に重要なことではない.社会人になってからでも使用法は学ぶ機会があるし,SWは更新されていくため学生時代の知識は古くなる.SWがなんであれ統計理論は古びない.
データの分析方法を教えるのは重要ではあるものの,統計的データを作成する方法について極めて重要であることをいくら強調しても強調しすぎることはない.同じような意味において,ある統計的分析手法を,あるデータに「適用」する時,ただ適用しただけでは満足な結果は得られないことを強調して強調しすぎることはない.
6.理論と応用
トラック運転手のせがれであったエフロンは理論と応用の両方に同時に関心を寄せた.ブートストラップ法の入門書(Efron & Tibshirani,
1993)はゲーテの引用(英訳)から始まる.
Dear fiend, theory is all gray,
and the golden tree of life is green
エフロンが「理論と応用」というのは,統計モデルの尤度関数を導くような理論的仕事と,それを計算機で代替する実践的仕事,というような高いレベルでの対比であろうから,軽々しく「理論と応用」などと比較できないかも知れないが,西欧文化の文脈のもとでゲーテの「ファウスト」(1808)の一節を引用する知性は,おそらくヘーゲルが「法の哲学」の序文(1820)において,そこを引用したことを意識していると思われる.
哲学がその理論の灰色に灰色を重ねて描く時,生の一つの姿はすでに老いたものとなっているのであって,灰色に灰色ではその生の姿は若返らされはせず,ただ認識されるだけである.ミネルヴァのふくろうは,黄昏がやってくると,はじめて飛びはじめる.(岩崎武雄訳)
エフロンはフィッシャーを意識して,統計理論を1980年代の計算機環境において生命を吹き込み,薔薇色に若返らせたと自負しているに違いない.
理論家が応用家に向かって自信満々にGIGOを説教する時,灰色に灰色を重ねているように思える.にもかかわらず理論はますます重要に見えてくる.回収率の低い社会調査などgarbageであり,努力を怠った堕落者の仕事だ,と涼しい顔で回収率80%目標を指導している社会学者がいるとすれば,彼は,重き荷をくくりて,人の肩に乗せ,己は指にて之を動かさんともしないパリサイ派に似ている.
統計数理研究所の「日本人の国民性調査」のような立派な学術的社会調査でさえ回収率は50%台であり,NHKも2004年以降は50%台に落ち込み,という現実は回避できない.灰色の理論は「電話調査では若者を回収できない」との説を述べるが,訪問面接調査(国民性調査)こそ20歳代の回収率が30%台と偏っている現実を顧みない.
母集団からの確率標本の精度が,s2/nで評価できるという統計理論は,母集団から無作為抽出した標本に関するもので,その4割以上が欠落した標本(回収標本)に関する議論ではない.
しかし,だからといって調査管理の努力を停止してはいけない.そうでなければ,調査は割当標本に容易に移行する.回収しやすい人だけから回答をもらうことになる.実践的にそのような調査法を採用するにしても,検討しながら移行するのと,無配慮に票集めをするのとでは大きく異なる.低回収率の無作為抽出標本と割当標本との比較・検討,また,今こそ非回収集団(調査不能)の研究が重要である.回収集団が非回収集団と同数ないし,より少ないという状況で,非回収集団の性質が未知のままでは不安である.理論は現実的に無力だという台詞は無力である.中心極限定理は,戦争直後の日本においても,半数が調査協力拒否する現在日本においても,平安時代においても,成立する.ヘーゲル流の表現を借りれば,こう言いたい.
理論的であるものこそ実践的であり,
実践的であるものこそ理論的である.
手元の標本に偏りがあっても,理想的な状態つまり回収率100%の回収標本=計画標本であるような極限的な状態に照らすことができるためには理論的理解が不可欠である.理論と無縁な実践は無力である.実践にとってこそ理論が必要とされる.
不十分な精度であるようなデータから何かを議論する場合にも,それがどのように不完全かを知っているためには,理論的な背景が必要である.吉村功(1971)の「科学」連載は,十分ではないデータから何が言えて,何が誤りかをよく示した.統計の誤用・悪用の事例をよく検討することはよい教材になるようである.統計学も読者を感動させることがあるのだ.
新聞記事に使われた統計数字に誤差幅が日常的に表明されるようになることが望ましい.しかし誤差に関するセンスを身につけるのは難しい.統計学が苦手だと思ったまま卒業する学生が多いのは,統計理論が数学で構築されているからである.数学教育を充実させればいい.しかし数学に興味を持つことは統計に興味を持つことよりも一般に難しい.
7.統計手法のニーズ(断片的メモ)
- 以前も述べたことがあるが,統計学者は堂々と「大学では理論を教えるのだ」と胸を張って主張してほしい.理論しかやっていないことに卑屈にならず,応用しかやれない実務家をばかにせず,しかし応用なんかに手を染めて堕落するものか,というくらいプライドを,イヤミなく持って欲しい.少しくらい面白そうなデータを探してきて講義に使ったところで,現実のデータ解析に比べれば,おもちゃのようなものである.企業は,学生諸君には理論を学んできて欲しいと願っている.少しくらい理屈っぽい青年になっていい.社会に出てから先輩と対決して欲しいくらいだ.ビジネスマンは理論をばかにしたりするのである.理論を知らない人が,そう言うのである.そういうビジネスマンは,大学教員が「現実のデータ解析ができるような教育をしないといけない.数式ばかり教えていても何の役にも立たない」などと発言すると喜んでしまう.自分のデキない部分は免除されているからホッとするのである.
- 上記は逆説のつもりなので,誤解のないように付言すれば,理論「だけ」が重要だから理論だけをやれ,ということではない.理論を研究する立場の教師と,理論を学ぶ時期の学生が遭遇する場所としての大学教育では,理論を教え,学ぶべきだと考えて当然ではないかということである.そのうえで,その理論が応用される実践の場所が社会の中に待っている.理論をやるべき時に実践に恋慕し,応用の立場になってから理論に後悔するということが不健全ではないかと思う.だから,応用の立場になってから理論ばかりやろうとし,理論しか分からないままでは不健全である.学生は学生時代に理論を学べ.卒業して社会に出たら,その応用を目指せ.もちろん,卒業後は理論をやめて応用だけというような接木をするわけではない.理論も引き続き最新状態を勉強するための素地を学生時代に養成するのである.そして10年.立派に一人前になった時,理論も応用もできる社会人となれ.理論しかできない大学人を越え,商売しかできない会社員を越え,研究も商売もできる社会人になってみせようというくらいの野心を,ひそかに燃やせ.
- 一方,企業の側でも,英語の再教育プログラムに匹敵するくらい統計の再教育に熱心になって欲しいと願う.市場調査で質問されたことがある.「顧客DBから階層別に人数を決めて調査した.全体値の集計時には,顧客DB(母集団)分布にあわせて重み付き集計をした.ところで,全体集計した結果の信頼区間の計算で標本サイズはどれを使えばいいんですか?」と.彼は単純無作為抽出の場合の公式を念頭に置いている.こういうのは「早見表」などというものが存在する.しかし,よく考えてみると,この場合,層別抽出法を適用したと考えるべきである.彼は,顧客の階層別に人数を決めて調査した時に,層別抽出をしていたことに相当することを認識していない.少し勉強していないと発想できないかも知れない.標本抽出法や実験計画法というのは勉強する価値がある.
- 理論を学生が学ぶのは辛いと思うけれど,楽しさもなければならない.大学は理論の楽しさを教えて欲しい.私は理論を教えることはできないけれど,データ解析の楽しさを教える(感じさせる)ようにしている.要するに教師が楽しいと思い,楽しく経験していなければ伝えられない.応用統計の楽しさは,経済学にも,社会学にも,心理学にも,疫学にも,文学にも,政治学にも,経営学にも,会計学にも見出せるはずだ.自分が楽しいと思ってもいないことを,学生が楽しいと感じるはずがない.
- しかし統計学はやはり難しいと思うことがあり,学生時代は典型的な,けれんみのない事例で,すなおに勉強するのがいいようにも思う.データと格闘し,泥にまみれろ,というのは社会に出てから,望まずとも,そうなる.
- ある日,林知己夫氏は私に言った「シミュレーションなんかやって欲しくないですね,特に若い人にはやって欲しくない.もっとデータと格闘する経験をして欲しい」と.頻度論的な意味での95%信頼区間について,調査を例にして実感するのは難しいように思う.しかしパソコンでシミュレーションすると実感できると思う.だから反論した.おっしゃりたい意味はとてもよく理解したつもりですが.
|