「日本統計学会誌」第31巻第3号(2001年12月)が届いた.そこに展望論文として,清水誠「官庁統計の意義と利用」が掲載されていた.統計官僚出身の著者なので当然であるが,官庁統計について文字どおりよく「展望」している.

日本経済新聞社は,これらの膨大な官庁統計を系列ごとにデータベース化してサービスしている.日経リサーチでは統計書からデータベース化する作業をしている.清水氏の指摘するように官庁統計にはさまざまな特徴がある.官庁統計を作る立場よりも,利用する立場よりも,これを統一的にデータベース化する作業をしている立場に身を置くと,そのことはよく実感できる.データを使いやすい形に整備する作業はたいへんなのである.

調査関係者にとっては,やはり国勢調査が最大の関心対象である.私も国勢調査に対する要望がある.年齢集計の区分である.もちろん1歳区分もあるので「小は大を兼ねる」ようになっているのであるが,いくつかの集計表では大きな年齢区分だけを使用して便利を提供している.年齢には三区分があるのだが,これは「15歳未満」「15〜64歳」「65歳以上」である.15歳という区切りは「労働人口」という意味が本来のようである.それは意義のある区分ではあるが,最近の高校生労働力は潜在化している.

調査の立場からは「20歳以上」が欲しい.これは「成人」であり「有権者」である.世論調査にとっても重要なカテゴリなのに,なぜか国勢調査では集計されない.「18歳以上」も欲しい.これは「大人」という重要なカテゴリである.恐らく多くの調査対象者は「18歳以上」や「20歳以上」で定義され,「15歳以上」ではない.政府は,早急に私の意見を取り入れて年齢の集計区分を考え直し,すぐに実行に移すべきである.

もちろん,今の政府も今後の政府も,やりっこない.私ごときの意見を無視したいからではなく,清水氏の指摘するように官庁統計は「柔軟性」については「課題が残る」のである.ただ,清水氏が挙げているもうひとつの「課題」である「利便性」はどうであろうか?.WEBでほとんどのデータが入手できる状況を見るにつけ,相当な利便性を達成していると思うのである.有料の商業データベースが危機を感じる程である.

2000年国勢調査の集計結果はまだ完全には公表されていないが,都道府県のWEBサイトにいくと,都道府県の結果に関しては入手できる.私は,ある表が必要になり,ある県のデータをとってきた.EXCELないしCSVで入手できるのであるが,報告書と同じ体裁になっていて,分析するには表頭や表側のセルが邪魔になる.時々出現する「小計」とか「再掲」という行も邪魔である.

そこで表を睨んで,必要な矩形を作る法則を考えた.これはEXCELのマクロで表現してもいいし,SASなどの言語で表現してもいい.法則というほどの立派なものではないが,行と列の約束事を見出そうと試みて整形プログラムを書いてみた.A県の処理をしたあと,B県についても同様の処理が必要である.見た目が少し違うのであるが,なんとなく同じ形をしている.もちろん同じ種類の集計表なのだが.県が独自に作成したために,総務省の報告書とまったく同じわけではない.ブランク文字1個違ってもプログラムを書き換えなければいけない.

ところが,試みに,A県で使ったプログラムをそのままB県に適用したら,エラーひとつ出ることなく完全に目的の処理を終えた.C県についても明白な相違部分に少し手を入れて,エイ!と実行してみると,完全に目的の処理を終えた.私としては驚くべき幸運,という感じであった.なんというすばらしき官庁統計の硬直性!.全国どこでも総務省の表形式を本質的に踏襲して集計表が作成されているのであった.

全国規模の標本調査を調査員による訪問面接法で実施する場合,標本抽出法に層別多段抽出法を使うことが多い.層別は精度向上を,多段抽出は実施効率化を目的とする工夫である.

意識調査では最終抽出単位は個人である.第一次抽出単位(PSU)は地点であり,しばしば「市区町村」「国勢調査区」「投票区」を使う.二段抽出の場合は「国勢調査区」か「投票区」をPSUとすることが多い.たとえば統計数理研究所の「日本人の国民性調査」では投票区を地点としているし,「国民性の国際比較調査」では国勢調査区を地点としている.

新聞社の世論調査では投票区を地点とすることが多い.世論調査では有権者の意見を聞くのだし,選挙調査でも同じ調査計画を適用することができる.調査対象者を有権者とすれば抽出台帳として選挙人名簿を使える利点がある.「日本人の国民性調査」の調査対象者も成人である.「国際比較調査」は18歳以上を対象者としているので,選挙人名簿は使えないこともあり,国勢調査区を地点としているのでろう.

国勢調査区を地点とする場合の不便は,総務省統計局にある世帯名簿を閲覧することが禁止されていることである.そのため,統計局まで出かけて調査区の番地を抽出台帳に書き写し,それを持って今度は区役所に行き,住民基本台帳を閲覧しながら調査区の番地から個人を系統抽出する.

住民基本台帳にも不便がある.国勢調査区は番地で定義されているのだが,住民基本台帳の配列は番地の自治体もあれば,50音順の自治体もある.名簿が自治体内50音順である場合,個人の抽出作業はとても面倒なものになる.データベースを使って人口推計し,確率比例抽出法で地点を無作為抽出してきたのに,簡単にパソコン処理できる抽出は地点までである.

国勢調査区は基本単位区によって構成され,平均的に1個の調査区には50世帯が含まれる.このことはよく知られているのだが,実際に抽出作業をしてみると平均50世帯はともかく,レンジが大きいことを経験する.東京の場合は,人口ゼロの調査区や自衛隊地区や水面調査区などを除いても,最小1世帯,最大509世帯である.15歳以上人口のレンジは1427人にのぼる.確率比例抽出するので,大きな調査区があってもかまわないが,問題は小さい調査区である.

多くの参考書では1地点あたり15人程度を推奨している,「日本人の国民性調査」では平均20人,「国民性の国際比較調査」では10〜15人,あるいは12〜16人といわれている.多くの調査で10〜20人というのが1地点あたりの抽出人数である.小さい調査区は抽出される確率が小さいものの,抽出される可能性はある.東京に限定しても,15歳以上人口が25人未満の「小さい」調査区は707個存在する(1995年国勢調査).もしも運悪く対象者が5人しかいない調査区にあたった場合はどうするか.あるいは,国勢調査時点から人口減少があり,抽出作業をしていたら対象者が足りないことが分かったら,どう対処するか.国勢調査区には数人しかいない調査区があることを知っていて,「1地点10人として国勢調査区をPSUとする」と解説しているのだと思うが,こういう稀な,しかしあり得る場合の抽出法(対処法)を説明してある調査の参考書は見たことがない.どうだろうか?.

国勢調査区も投票区も,国勢調査の実施や,選挙の実施のために設定した地点であって,標本調査のために設定した地点ではない.仮想的な地点を使い,このような問題を避ける方法も考えられる.調査対象者の個人は,層別に,地域別に並んでいると考えることができる.そこで地点を抽出する場合は,系統抽出法で所定数のスポットを抽出するのである.そのスポットが所属する自治体の住民基本台帳を閲覧して,対象者個人をそのスポットから等間隔抽出する.

この場合のスポットという地点は,町丁名と町丁人口の何人目かで定義される.地点サイズは一定(抽出間隔×抽出人数)であり.地点境界線は仮想的である.国勢調査の統計で地点を確率比例抽出しながら,住民基本台帳で登録者を系統抽出することによる偏りもない.もちろん,この場合でも層の境界や,都道府県の境界に,スポットが落ちてしまうことはある.めったに起きない稀なことであるが.

国勢調査は全数調査なので回収率という概念はないが,国勢調査にさえ回答しない世帯が増加している.不在等で回収できなかった世帯は,調査員による聞き取り調査を実施する.この件数は,1995年国勢調査では25万4484(総世帯の0.6%)であったが,2000年では100万(総世帯の2.2%)を超えた.このうち郵送で後日回答を得たのは,1995年で5万5597件,2000年で20万件であった(昨年8月時点集計値).これらの地域別集計値が公表されれば興味深い.やはり都心部で高い比率を示すであろう.標本調査の回収率は低下傾向にあるが,国勢調査における傾向も,そのことを示している.