統計的推測における信頼区間は,どのような初等統計学の教科書にも説明されているにもかかわらず,議論の多い問題でもある.いくつかの参考書の記述を引用してみよう.

実務教育研究所(1994)「現代統計実務講座T」p.266
このとき95%あるいは99%という確率を信頼率(信頼度ともいう)とよぶ.この信頼率は何をあらわしているのだろうか.真の値(母数)pは,この区間に入っているかいないかのいずれかである.したがって,ただ一つの標本から求めた信頼区間だけを考えるときには,95%や99%という確率は出てこない.このような無作為抽出を繰り返し行ない,そのたびに,前と同じ方式で信頼区間をつくるとすれば,推定値p^が変わることによって,その信頼区間の中点も,また,区間の幅も変わる.このような操作を無限に繰り返して無数の信頼区間を得るとすれば,そのうち真の値pを含むものの割合を示すのがこの信頼率である.

東京大学教養学部統計学教室(1991)統計学入門.東京大学出版会.p.225
なお,同一の母集団から抽出した標本でも,標本ごとに信頼区間の推定値は変化する.θは未知ではあるが決まった定数である.したがって,一つの標本から信頼区間を具体的な数値として推定してやれば,これは信頼区間に含まれるか含まれないかのいずれかしかない.すなわち,具体的な数値として計算した現実の信頼区間に対して,“1−αの確率でθを含む”ということはない.信頼区間の意味は,繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合,θを区間内に含むものの割合は1−α となるということである.

永田靖(1996)統計的方法のしくみ.日科技連.p.118
しかし,この信頼率を誤解している人が多くいる.例えば,n=10個のデータの値が5.3, 5.8, 6.1, 6.3, 7.2, 5.9, 6.1, 6.7, 5.5, 6.0 であるとする.データより狽亙=60.9, 肺i^2 = 373.63, x- = 肺i / n = 6.09, S = (xi - x- )^2 = 2.749, V = S /(n-1) 0.3054, t(9, 0.05) - 2.262 となる.これらの値を式(1)に代入すると,母平均μの信頼率95%の信頼区間として(μL, μU) = ( 5.69, 6.49 )が得られる.ここで,「母平均μが区間(5.69,6.49)に95%の確率で含まれている」と考えるのは正しくない.これが誤解である.母平均μの値は未知ではあるが定数である.したがって,区間が具体的に(5.69,6.49)と求まったあとでは,μはこの区間に含まれているかいないかのどちらかであり,確率を考えることは不適切になる.例えばコインを1枚投げるときに,投げる前(データを取る前)ならオモテがでる確率は1/2であると考えることができるが,投げた後(データを取った後)は,オモテがでているかいないかのどちらかである.信頼率が95%というのは,「データを取って式(1)により信頼区間を構成する」という作業を何回も繰返せば,計算されたうちの95%の信頼区間が母平均μを含んでいるという意味である.

丹後俊郎(1998)統計学のセンス.朝倉書店.p.4
統計学のセンスNo.2「95%信頼区間とは」無作為抽出を繰り返し行なって95%信頼区間を計算したとき,100回に95回位は真の平均値μを含んでいる範囲である.今計算された95%信頼区間に真の平均値μを含む確率が95%という意味ではない.その確率は1(含んでいる)か0(含んでいない)かどちらかである.

豊田秀樹(1998)調査法講義.朝倉書店.p.115
信頼区間を解釈する場合に「この不等式に確率変数の実現値を代入した区間が,95%の確率で母平均を含む」と誤解される場合があるので注意しなくてはいけない.μは定数であるから,実現値を代入した区間が母平均を含むか否かの確率は1か0である.確率変数はx-とσx-である.ゆえに「何度も調査を実施して,そのたびごとに信頼区間を計算したとすると,多くの信頼区間のうち,その95%が母平均を含む」と解釈するのが正しい.

芝祐順・南風原朝和(1990)行動科学における統計解析法.東京大学出版会.p.88
この式の意味は,母集団平均μのまわりに±wの幅をとって設けた区間に標本平均x-が含まれる確率が1−αであるということで,とくに新しいものではない.これをさらに書き換えると,P(x- - w < μ < x- + w) = 1 - α (4.24)という式が得られる.これは,母集団平均μが,標本平均x-のまわりに±wの幅をとって設けた区間に含まれる確率を示している.ただし,確率的に変動するのはμではなく,標本平均を中心とする区間の方である.実際の標本から得られた値x-やsを用いると,この区間(x- - w, x- + w),すなわち( x- - t1-α/2 s/√n-1, x- + t1-α/2 s/√n-1) (4.25)の実現値が得られる.これを信頼係数1−αの信頼区間という.また,100( 1 - α)%信頼区間という表現も用いられる.信頼区間の上下の境界値は信頼限界とよばれる.このような手続きによって「母集団平均がその区間に含まれる」と推論すれば,1回の推論が的中する確率は1−αとなる.いいかえれば,同じ母集団から大きさnの標本を抽出することを何度でも繰返すこととを想定したとき,そのようにして得られる多くの標本のうちのほぼ100(1-α)%の標本において,母集団平均を含む信頼区間が得られるということである.

竹村彰道(1991)現代数理統計学.創文社.p.202
9.1節で述べたように信頼域についてはP[θ ∈ S(X) ] = 1 - α (9.19)を「確率」と呼ばずに「信頼係数」とよんでいる.それはP[θ ∈ S(X) ] を確率と解釈することについて問題があるためである.P[θ ∈ S(X) ] において確率的に変化するのはS(X)でありS(X)はランダムな集合である.(9.19)式が意味しているのはランダムに発生する集合S(X)が未知の母数θを含む確率 ( coverage probability )が1-αになるということである.これはいわばXを観測する前の事前の確率であり,特定のX=xが実現した後にθがS(X)に含まれる確率を議論することはできない.すなわちθは未知ではあるが固定された値であるから,特定のS(x)を固定すれば,θはS(x)に含まれるか含まれないかのいずれかであり,θがS(x)に含まれる確率は1か0になってしまう.ただしθが未知であるから1か0のどちらであるかも未知である.従って通常の意味での確率を考えることは意味がないのである.例えばX〜N(μ,1)とする時,Xの実現値xに基づいてx±zα/2 の形の区間を作ったあとで,通常の意味で“μがこの区間にはいる確率”を考えることはできない.(9.19)式は,「x±zα/2という形の区間を作ることにしたとすると,Xを観測する前にはこの形の区間がμを含む確率が1−αとなる」ということを述べているにすぎない.

竹村彰道(1997)統計.共立出版.p.168
ところで,式(14.3)の確率の解釈には注意が必要である.式(14.3)において,μ0は未知であるがパラメータの真値であり,これは固定されている.確率的に変動するのはIという区間である.すなわち式(14.3)の意味はμ=μ0が真のときに式(14.2)の形の区間を何度も作ると,この形の区間がμ0を含む割合が1-αになる,という意味あいである.このような信頼区間の意味づけはやや説得性に欠ける面があり,「ベイズ統計学」とよばれる考え方と通常の推測統計学との間の論争点の1つになっている.

渡部洋(1996)統計学入門.金子書房.p.95
この信頼区間は,正規母集団N(μ,s2)から大きさNの無作為標本を幾度も抽出し,そのたびごとに同じ手続きによって母平均μについての信頼係数90%の信頼区間を多数算出すると,それらの区間のうち90%が母平均μを含む区間となることを意味している.いいかえれば,ここで信頼係数90%とよばれる数値は,区間を非常に多数回算出すればそれらの区間のうち90%が正しいということであって,実際の観測値から算出された区間そのものがμを含んでいることを保証するものではないということになる.これは次章で述べるベイズ推測における確信区間とは,その考えを根本的に異にするものである.

ウォナコット&ウォナコット(1978)統計学序説.培風館.p.119
(7-3)については思い違いをしやすいから十分注意を払っておく必要がある.μは代数的操作をした際に性質がかわったのではない.μは変数になったのではなく,母集団定数のままである.(7-3)は,(7-2)と同様,確率変数X-についての,あるいはより正確にいえば,「変区間」x- - 1.96(σ/√n ) 〜 x- + 1.96(σ/√n )についての確率命題である.変化するのはμではなく,この区間である.(中略)
実際にはもちろん,統計家は何組もの標本をとろうとはしない−−ただ一組の標本をとるだけである.そして一度この標本で区間推定が行なわれると,それは正しいか誤りのどちらか−−その区間が正しくμを含むか否か−−となる.しかしながら,ここで大切なのことは,統計家は成功の確率が95%であるような方法を用いていることである.なぜならばそれは,観測したX−が範囲abの中に落ち,その結果として統計家のその1回の区間推定がμを含むであろう確率95%であるからである.これが95%信頼区間の意味である.すなわち統計家は,このようにして作るいくつものく間のうち,結局95%がμを含むであろうことを知っている.主要な論点を以下に要約する.
1.母数μは定数であり,一定のままである.確率変数であるのは区間推定である(X-が確率変数であるから).X−が全領域の値を取り得る確率変数である限り,X−はμの「推定量」と呼ばれている.
2.しかし,いったん標本が観測されてX−が特定の値をとると,x−は「推定値」と呼ばれる.x−はもはや確率変数ではないから,確率命題として扱うのは厳密には適当でない.このために,推定値x−が(7-3)に代入されると,それはもう95%の確率命題ではなくて95%の信頼命題と呼ばれる.(7-9式略).このようにX-がμに近いというい(7-3)における演繹的な考え方が,μは観測されたx-近いという帰納的な考え方に「かわった」のである.(7-9)はしばしば以下のように略記される.
(7-10式略)
ここでz.025は標準正規分布の左右のすそに2.5%の確率を残すような臨界値である.
要点をもう1度述べると,一度X−がx-であると観測されれば「サイコロはすでに投げられた」のであり,(7-9)の区間推定はまったく正しいかまったくの誤りかのどちらかになる.

スネデガー&コクラン(1972)統計的方法.岩波書店.p.7
 標本が抽出されるまえにわれわれは,予期される信頼判定が真である確率を定めることができる.すなわち次のように言うことができる.“自分は無作為標本を抽出し,それによって区間推定をおこなう.そのときの区間が母集団比率をおおう確率は95%である”と.しかしながら,標本が抽出されたのちでは,信頼判定は真であるか偽であるかのどちらかである.したがって,ボーン群での標本抽出の結果を報告するにあたって,“1950年のボーン群の噴霧農家の数が345かと736のあいだにある確率は0.95である”といえば誤りになる.この論法は難解であるが,信頼区間判定の有効性を弱めるものではない.信頼判定をある場合に適用したとき,その判定が正しい95%の判定のひとつであるか,あるいは誤った5%の判定のひとつであるかは知るわけにはいかない.1回の特定の適用についてさらに明確な確率判定を与える方法,とくにベイズ流として知られている方法などがあるが,それらは標本抽出されるもとの母集団の性質についてさらに多くの仮定を必要とするのである.

稲垣宣生・山根芳知・吉田光雄(1992)統計学入門.裳華房.p.109
信頼係数γは,母数が信頼区間(a,b)の中に含まれる確からしさがγであるという意味で,いわば結論を正しいと思う確信の程度( degree of belief )である.しかし,現在の統計学では確率は頻度論的に定義されており,その観点からみると,信頼係数は次のように解釈される.
 たとえばγ=0.95とすると,母数を推定する作業を100回試みたとき,平均的にいってそのうちの95回は正しく信頼区間の中に母数が含まれ,5回は含まれていない,という意味である(図5・3).また,一般に信頼区間は
(5.25) P( a < θ < b) = γ
の形で表現されるが,θは母数であって確率変数ではない.確率変数でないものが区間(a,b)に含まれる確率というのはおかしい,という議論もあるが,これは頻度論的には以下のように解釈されている.
 たとえば,分散既知の母平均の区間推定では,信頼区間の上下限(これを信頼限界という)は
(5.26)式略
と書かれている.確率変数はこの場合は標本平均X^であって,X^はサンプリングごとに変化しており,したがって,信頼区間の上下限が確率変数である(図5・5),というものである.

蓑谷千鳳彦(1997)推測統計のはなし.東京図書.p.123
ところで,区間[14.2,14.8]の中にμの真の値が含まれることを99%信頼できるとは,一体どういう意味でしょうか.P(14.2<μ<14.8) = 0.99という意味なのでしょうか.μは定数であり,この区間の中や外をチョロチョロ動き回る確率変数ではありませんから,定数が特定の区間[14.2,14.8]の中に含まれるかどうかの確率言明は無意味のはずです.特定の区間の中に,μの真の値は含まれるか,含まれないかのいずれかです.賭けをするまえに,AがBに勝つ確率は0.7であるという言明は意味はあっても,賭けが終わった後ではAはBに勝ったか,負けたかいずれかです.
P(X- - 2.575*σ/√n <μ< X- + 2.575*σ/√n ) = 0.99
というネイマン流の確率言明は,nを固定して100組の標本を抽出すれば,このルールにしたがって標本ごとに1本の信頼区間,計100組の信頼区間が得られ,そのうち99本が,平均的に,μの真の値を含むであろうという意味です.特定の標本にもとづいて計算された,数値の確定した区間が,定数μを含む確率が0.99というような言明はできません.
このようなネイマン流の信頼区間の解釈が現在支配的です.こうして,ネイマン流の信頼区間では,99%信頼区間における確率0.99は,標本抽出を多数くり返すときの長期的相対度数として解釈されます.このような解釈を認めながらも,1回の実験結果から得られる特定の信頼区間,たとえば例1の[14.2,14.8]の中にμの真の値が含まれることを99%確信するというように,確信の度合として確率の解釈をするのが実際の場でなされていることではないでしょうか.この点に関しては,本章のティー・タイムも参照して下さい.

ホーエル(1971)入門数理統計学.培風館.p.198
(12)を頻度論的に説明すれば,この種の実験を極めて多数回繰返し行なってそのつどX^の値を求めたとすれば,これらの値のうち95%のものがμ±8によって決まる区間の中に入ることを意味している.次ぎに(13)を頻度論的に説明すれば,この種の実験を多数回繰返してそのつど区間(X^ - 0.8, X^ + 0.8 )をつくったとき,これらの区間の95%のものが未知の平均μを含むことを意味している.これら2つの意味するところを幾何学的に表わしたのが図1である.
 各点は大きさ100の各標本から得たX^の値を表わす.上の図はμが既知であるとした場合に対応するもので,確率的主張はX^に関してなされている.下の図はμを未知としたときに対応するもので,変数としての区間X^±0.8が図示されている.上の図で,もしある点が95%の帯域内に入るならば,下の図のその点に対する区間は必ずμを含むはずで,もし点が帯域内に入らないならば,その点に対する区間はμを含まないことになる.
 実際には,このようなX^の値はただ1つしか利用できない.すなわち最初の点とそれに対応する区間だけが利用できるに過ぎない.この1回だけの実験に基づいて,区間30±0.8は母集団平均μを含むという主張をするのである.もし実験が何回か行なわれて各実験ごとにそのつど実験に対応して決まる区間について同じ主張をするならば,平均してそのような主張の95%は正しいものとなるであろう.母集団の母数に関して正しい確率的主張をすることができるというのはこの意味においてである.区間30±0.8はμに対する95%の信頼区間とよばれる.ある母数に対する信頼区間の端点をその母数に対する信頼限界という.
 与えられた実験に信頼区間の手法を適用する場合に,この手法は一般的な法則としては正しいが,個々の主張が正しいか否かについては単に賭けをしているにすぎないことをよく理解しなければならない.特定の区間30±0.8がμを含む確率が0,95であると主張するのは明らかに正しくない.この確率は,μがこの固定した区間にあったかまたはなかったかによって,1か0かのどちらかである.望ましい型の正しい確率的主張をすることができるのは,確率変数としての区間X^±0.8を考える時だけである.

「現代思想」(青土社)「確率化する社会」特集(2000.vol28-1)
−−そういう意味では主観確率というものも行き詰まっているし,ネイマン流の頻度確率も現実をうまく反映していない.それらに比べれば,フィッシャーは,主観と客観のあいまみたいなところでやっている,と竹内先生は書かれていますね.
《竹内啓》だけど,それだからこそ,彼の議論は矛盾を含んでいる.追求すると大抵どこかに矛盾を生じる.それは,現実に我々が,偶然性なり非決定性なりを含んだものを扱うときに,どうしても生じてくる問題であると私は思います.そもそも偶然性を完全に矛盾なく扱うことはできないと考えた方がいいと私は思っているんです.
−−フィッシャーについては,竹内先生も論文でお書きになっていることですが,区間推定についてのフィッシャーとネイマンの論争は大変興味深く,私はフィッシャーの側に立ちたくなります.大学で統計を教えているときに,やはり,区間推定というのはどうしてもおかしいと思うんです.違和感がある.学生に教えるときに,母平均μがある間にはさまっていて,そのときに,やはりμというのが動いている確率変数だという感じに見えるわけです.フィッシャー自身はそれを動いているもの,信念の度合いを表すもの,として捉えたいという想いを持っていたわけですね.だから,そのためには区間推定に使う推定量には,十分統計量を使わないといけないという感覚を漠然と直感していたようです.全データをもってきてこそ,初めて意味があるんだと.それはやはり,背後にあるには皮膚感覚みたいなもので,数学以前の直感なんだと思うのです.統計というのは,頻度論者(フリークエンティスト)のロジックではなくて,ある種の信念みたいなものに裏付けられるべきなんだという.
《竹内》ただその皮膚感覚が,やはり何らかの意味で客観的な事実に裏づけられないと,単なる皮膚感覚にとどまってしまって,人を説得できないわけです.だから今いわれているように,サンプルというのは,きちんとランダムネスとかを満たしていないといけないのであって,俺は俺の主観でこれを信じると言っただけでは,やはり困るわけです.フィッシャーはそのへんをいろいろ苦労してやってるわけですが,しかし矛盾がでるわけです.

渋谷政昭・竹内啓(1962)訳者解説(R.A.フィッシャー『統計的方法と科学的推論』岩波書店)
 もう一つの,そうして最もやかましい議論を生じた問題は,区間推定に関してである.
 いま上にあげたのと同じ問題について考えると,
Pr{ |X^ - μ| >= 1.96 / √n } = 0.95
となるから,これを変形して
Pr{ X^ - 1.96/√n <= μ <= X^ + 1.96/√n } = 0.95
と表わされる.したがって X^ - 1.96/√n と X^ + 1.96/√n で限られた区間に母数μが含まれる確率は95%であることになる.ところがネイマンはいう.このことは,決してX^の特定の実現値が観測されたとき,たとえば5個の値を観測してX^=75.5 という数字を得たとき,
75.5-1.96/√n <= μ <= 75.5+1.96/√5
となる確率が95%であるということを意味するわけではない.μは確率変数ではなく一定の値だから,μは上記の区間に含まれるか含まれないかのどちらかである.したがって確率は0か1であってその中間ではない.
Pr{ X^ - 1.96/√n <= μ <= X^ + 1.96/√n } = 0.95
という式は同じ母集団に,標本から同じ方式で区間を構成することを繰返し行ったときにその区間が真の値を含む場合が全体の95%になることを意味するに過ぎない.95%という数字は個々の区間について確率を表わさないから区別して信頼係数と呼ぶ.
 これに対してフィッシャーは次のように考える.
Pr{ X^ - 1.96/√n <= μ <= X^ + 1.96/√n } = 0.95
という式が全てのμについて成立つ以上,このX^に特定の値を入れたxについてもその成立する確率が95%であると考えてもよいではないか.それはこのような特定の値を入れたときの命題の信頼性を表わす合理的な尺度である.なるほど,もとの確率についての命題はX^を中心として左右に動く区間が真の値を含む頻度が95%ということであった.しかしこのような区間の集まりの中で,今得られた特定の観測値に対応する区間を特に区別する理由が存在しないのだから,この特定の区間が真の値を含む確率が95%とのべることは全く合理的である.このような考え方から導かれるのが推測確率である.
 推測確率の考え方は非常に多くの議論をまき起こした.その批判は二つあり,一つは確率概念をこのような形で用いることに対する批判,第二はこのように定義される推測確率から矛盾が生ずるということであった.