きょう(1999.12.23)配達された「日本統計学会会報」(NO.102/1999.12.10)の中で竹村彰通先生が「学問にもはやりすたり」というエッセーを書かかれており,以下のような段がある.
引用が長くなったが,ネーミングの重要性が引用目的ではなくて「靴紐法」のことで感想を誘引したのである. 新しげな意匠をまとったカタカナの名前は日本では胡散臭い.保身を考えずにはっきり言えば「データマイニング」だとか「ニューラルネットワーク」だとか−−等々が浮かんでくる.ビジネス界,特にマーケティングなどでは,名前でハッタリをかますのは伝統ではないかとさえ思う.「CS」,「ブランドエクイティー」,「サイバー」,いくらでも出てくる. 本題の「靴紐法」であるが,学生諸君のために書くと,これは Bootstrap Methods の竹村先生訳である.竹村先生はここで意図的に直訳してみせているのだが,明治時代の鴎外ならどう訳すだろうか?.諸君は文学部の学生だから「鴎外ならこう訳すだろう」というセンスに長けていると期待する.ちょっと鴎外訳を考えてみよう(鴎外だから当然,漢語である.大和言葉ではいけない). ブートストラップ法はスタンフォード大学の統計学教授 Bradley Efron が1979年に発表した.20年前ではあるが「つい最近」のことである.直接関係ないが,この1979年の日本は,ソニーがウォークマンを発売し,喫茶店ではインベーダーゲームが大流行した年で,子供の遊びの主流がTVゲームに変わった転換点であった. 日本語でブートストラップ法が紹介されたのは,その3年後の1983年であった.エフロンとダイアコニスによる同年の論文の翻訳が雑誌 「サイエンス」(日本経済新聞社)に掲載されたのである.訳者は東大紛争の最盛期である1968年から1972年までスタンフォード大学にいて統計学を研究し博士号を取得して帰国した松原望先生であった.翻訳のタイトルは「コンピューターがひらく新しい統計学」で,この時「ブートストラップ法」と訳されたのである(靴紐法ではなかった).ちなみに竹村先生もまた松原先生の10年後に,同じスタンフォード大学で統計学の博士号を取得している(1982年).スタンフォード大学は統計パッケージ SPSS を開発した(1965年)ことでも有名である. 竹村先生は「おそらく原語自体も英語を母国語とする人達にさえあまり意味がわからないのではないかと思う.」と書いているのだが,本当にそうなのだろうか?.もちろんエフロンとじかに話し合える環境に留学していた竹村先生がそういうのだから,そうである可能性が高い. ただブートストラップという命名は実によくできていると感動するのである.意味もピッタリで,豊かな喩的表現となっている.おそらく欧米人にとってはもっと親近感があると思うのだがエフロン以外には「あまり意味はわからない」のであろうか?. ブートストラップという命名はヨーロッパの古い物語として欧米人が長年親しんできた『ミュンヒハウゼン男爵の奇想天外な水路陸路の旅と遠征,愉快な物語』という長い名前の古典の一節からとったものである.18世紀のドイツでビュルガーによって著されたが,英語版はラスぺによる.ビュルガー本とラスペ本は入り組んで版を重ねてどちらがオリジナルともいえないようである.エフロンが読んだのは英語のラスペ本である.ここにブートストラップに関する話が出てくる.日本語版としては,松原先生の翻訳が「サイエンス」に発表された1983年に岩波文庫版の『ほらふき男爵の冒険』(新井皓士訳)が出ている.これはビュルガー本(第二版)の翻訳である.実はこのビュルガー本にはブートストラップの話が収録されていない.ただ,似た話はある. (新井訳). 「沼に落ちた自分の髪をつかんで,自分で自分を引き上げた」というまことしやかなホラがこの話のポイントである.エフロンが読んだラスペ本には,bootstrap が出てくる. ( Efron et al. (1993)より孫引き). ここでバロンというのは,イギリス系のほらふき男爵「バロン・マンチョーゼン」である.ドイツ系では「フライヘル・フォン・ミュンヒハウゼン」である.ラスペ本では語り手による第3人称になっており,ビュルガー本では男爵自身の語りという形式になっている. 英語では boot tag,米語では bootstrap というブーツのつまみ(または靴紐)を「自分でつかんで自分自身をひっぱり上げる」という意味が醸成され,米英では bootstrap は自力で起動することの比喩となっている.コンピュータの起動を「ブート」というのはこの意味である.コンピュータが初めて起動する時の初期読込ルーチンを bootstrap というので,欧米人はこちらを連想するかも知れない. 実際,ブートストラップからコンピュータへの連想は的外れではない.諸君も何かコンピュータ言語を学ぶと気がつくことである.話はそれるが,コンピュータ言語は機械語(第1世代言語)を理解する.それは「01011010」のような2進数(ビット列)である.物理的には電流のON/OFFに対応する.人間には理解しにくい.そこでアセンブラ(第2世代言語)は「01011101」のような機械語を「ADD」(加算命令)のような人間に分かる名前に対応(翻訳)させる.このアセンブラは機械語で書かれる.機械語は自分を呼ぶための名前を自分で書いているのである.これはブートストラッピングである.そして,この自己言及性はさらに継続できる.いつも繰り返し使うような命令のかたまりに,さらに名前をつけて呼び出し(これを関数とか手続きとかサブルーチンとかいう),もっと自然言語に近い文法を作り,これを機械語にまで翻訳するプログラムを用意しておけばいいのである.例えば y = a + b .と書けるようにする.ここでは既に「呼び込み」「加算」「代入」などの命令群が必要である.これをコンパイラ(第3世代言語)という.FORTRAN, PL/I, Basic, COBOL などである.ちなみにSAS言語は第4世代言語といわれる.DATAステップのようなコンパイラ・インタプリタ的な言語と,プロシジャと呼ばれる関数群を管理するスーパバイザ(というプログラム)がユーザーとのインターフェースを抽象化している.このため第3世代言語に必要なファイル入出力や実行モジュールのコンパイル&実行という処理を人間が意識しなくても良い. 自己言及によるこの抽象化には際限がない.アルゴリズムと呼ばれる計算法の塊が作られる.たとえばヤコビ法という関数を作る.次にはある対称行列を入力として受け取ると,固有ベクトルと固有値を出力するようなeigenという名前の関数を作ることができる.するとある生データ行列を入力として受け取ると,共分散行列を計算して固有値分解し.出力として固有ベクトルのほか主成分得点や因子負荷量やスクリープロットを出力するようなpcaという名前の関数を作ることができる.いちど作った関数は次回の別の関数の部品として利用できるようになる.一方ではこの抽象化はGUIに進むこともできる.狽ニいう記号のついた絵(アイコン)をクリックすると,その場所で列和や行和を次のセルに出力するのが,EXCELの内部動作である. この過程は西欧の伝統的な(つまり近代的な)思想の原型である.すなわちデカルトの思想と同じである.デカルトは複雑な対象に向かう際には,もうこれ以上分割できないという最小単位まで分割し,そのあとで分割した単位から総合化していくという方法を示したのであった.この考えはプログラミングにおける「構造化」という分割統治の考えにつながった.ところで,ここでフッサールを唐突に引用しても実感的に読めるであろう. (フッサール『ヨーロッパ諸学の危機と超越論的現象学』細谷恒夫・木田元訳) ブートストラップ法は基本的には復元抽出法である.早大生全員の健康診断データ(n=30000)が手許にある.ここからN=50の標本を単純無作為抽出して身長と体重の相関係数rを計算する.rの確率分布は(30000人から50人を選ぶ)30000の50乗の組の標本のrを計算してみれば提示できるが,現在のコンピュータでは生涯かけても計算が終わらない.統計理論はここで得たrの確からしさを2変量正規分布を仮定することで信頼区間として表現する.ブートストラップ法は統計理論がやることを,コンピュータを使って推定するのである.エフロンらの言い方を使えば「フィッシャーは1920年代の計算設備を十分に活用した統計理論を構築した.現在私達が目指していることは,1980年代にそれを再現することなのである」(松原訳)という自負である. 標本相関係数rの確からしさを推定するためにはrの分布を調べなければいけない.ブートストラップ法の具体的手順はこうである.N=50の標本から1個を無作為抽出して値を記録して元に戻し,再び元のN=50から1個を無作為抽出する.これを50回繰返すと,新しい(2つめの)N=50の標本が作成できるので,ここでrを計算して記録しておく.復元抽出なので2つめ以降の標本には同じ観測値も含まれることがある.次に3つめのn=50の標本を同じ手続きで作って3つめのrを計算して記録しておく.この手続きを例えばB=2000回繰返すと,サイズが50である2000個の標本から,2000個のrが得られる.2000個のrのヒストグラムを描きrの標本分布を得る.パーセンタイルを計算し区間推定する. N=50の標本から新しくN=50の標本を復元抽出する手続きはコンピュータを使えば何万回も実行できる.そしてこのブートストラップ分布は実際の標本分布とよく一致することが理論的研究によって示されている.このように,自分(標本)からいくらでも自分の分身を再生(復元抽出)して標本分布を近似できるという不思議さの感覚が,まさに自分の靴をつまんで自分を持ち上げるような不思議さに対応しているのである.ブートストラップという命名の源泉はここにある.まるで生きもののような気がしてくる(実際,生物は欠損した肉体を自分の細胞から再生して治癒する力を持っている).あるいはエッシャーのリトグラフ『相対性』の階段や『描いている手と手』や『メビウスの帯』ような再帰・自己言及・再生の不思議の感覚を連想する. ブートストラップ法の先鞭としてはジャックナイフ法がある.ジャックナイフ法を提唱したテューキーもまたいくつかの独特の名前を発明した統計学者である.エフロンはジャックナイフという気の利いた名前を意識していたに違いない.またいささかの遊び心もあったであろうか.ジャックナイフやブートストラップという名前は文学的には,クロスバリデーションなどという名前より高度な表現の質を達成しているのである.26個の表音文字しかない文化における文学的表現は,ますます喩に依存することになる.相関行列の固有値の折線グラフをスクリープロットというのは,その形が崖の下に岩屑をためている稜線に似ているからである. テューキーの本は哲学的で難解である.テューキーがしばしば哲学者であるように,エフロンもまた時々,文学者の風貌を見せる.エフロンが書いた最近のブートストラップ入門書(1993)は,ゲーテの『ファウスト』(英語版)の引用から始まっている.
これはメフィストが学生に向かって言う場面である(悲劇第一部書斎;後注参照).アカデミズムをからかっているのだが,エフロンはなぜここに思いを込めたのであろうか.ブートストラップ法が灰色の理論ではなく,緑にしげる生命の黄金樹なのだ−−と象徴させたいのである. スタンフォード大学の統計学教授であるエフロンは,文化的背景の異なる東洋から来た竹村先生にブートストラップ法の命名由来や思い入れを講義(雑談)したであろうか.また,しばしば哲学者である松原先生に対してはどうであったろうか.松原先生の最近の本(計量社会科学)はデカルトから始まっている.
文献:
注:原文は以下の通り:
ちなみに,Walter Kaufmann (1961) による英訳:
鴎外訳:
手塚富雄訳:
|