ＡＢＯ　ＦＡＮ

ランダムサンプリングは必要ですか？

　ランダムサンプリングは、日本語では無作為抽出と言います。ここでは、ランダムサンプリングの方がポピュラーのようなので、カタカナを使うことにします。

　さて、統計ではランダムサンプリングが重視されていることは間違いありません。中には、ランダムサンプリングのデータじゃなければ絶対に認められない、というナントカの一つお…、いやランダムサンプリング原理主義者もいるようです。

　でも、「血液型と性格」のデータには、必ずランダムサンプリングが必要なのでしょうか？

　皆さんも一緒に考えてみませんか。

　では、スタート！ -- H17.8.5

ランダムサンプリングってなに？

　ランダムサンプリングって何でしょうか。そんなの知っているよ～、という人もいるでしょうが、ここでは初心者のために一応説明しておきます。例えば、原純輔・海野道郎『社会調査演習［第２版］』（東京大学出版会）では、次のようにあります（２８ページ）。

　母集団を構成する個体のうちから一部分を選び出して，標本を作る作業が標本抽出（sampling）である．われわれは標本に対して調査を行い，得られた統計量（これを標本統計量とよぶ）から，統計学理論を用いて母集団における統計量（母集団統計量）を推測する．
　正確な推測のためには，標本が母集団のいわば「縮図」となっていることが望ましいことは，容易に想像がつくだろう．

　「縮図」の意味は、母集団の個体数をN、標本の個体数をnとしたとき、ある特性を持つ個体数が母集団ではN'であったとすると、標本での個体数n''は、n'=N'(n/N) になるということです。まあ、当然ですが…。平均値や比率などは個体数に関係ないので、母集団と標本とで同じになります。例えば、比率の場合は、(n'/n)=(N'/N) となります。では引き続き２８～２９ページを読んでみましょう。

(1) 無作為抽出法統計学理論を用いた母集団統計量の推測（これを統計的推測とよぶ）を行うためには，標本として選び出される確率（抽出確率）が，母集団を構成するすべての個体に対してわかっていることが必要である．そのような条件を備えた抽出法を無作為抽出法という．とくに，すべての個体に関して抽出確率が同一であるという条件の下で，標本を構成する個体を選び出す方法を単純無作為抽出法（simple random sapling）とよぶ．標本として選び出される可能性がすべての個体で等しいということであるから，いわばくじ引きの原理で行うのであり，上記の母集団の例でいえば，n/Nが各個体の抽出確率である．

　まあ、とりあえずこんなところでいいでしょうか。もっと詳しく知りたい方は、社会調査や統計学の教科書を読んでみてくださいね。 -- H17.8.7

ランダムサンプリングってなぜ必要なの？

　今までの説明でわかったと思いますが、正確な統計的な推測をするためランダムサンプリングが必要となるわけですね。では、具体的な方法はどうするのでしょうか。それは、前述のとおり「くじ引き」と同じ原理になります（実際には乱数表を使うこともあります）。

　では、ここからは、ＡＢＯＦＡＮらしく、あまり教科書に書いていない知識を紹介しましょう。

　ランダムサンプリングが必要でない場合ってあるんでしょうか？

　もちろんあります！

　ランダムサンプリングは統計的な推測をするために必要なのですから、統計的な推測が不要な場合は不必要です。そんなことってあるのかなぁ、と思う人がいるかもしれませんが、実はあるのです（笑）。例えば、母集団を全て調査できる場合です（怒らないで・笑）。まもなく行われる国勢調査なんかが典型です。

　もう一つ考えられるのは、必ずしも「標本として選び出される確率（抽出確率）が，母集団を構成するすべての個体に対してわかっている」と言えない場合です。これについては、ランダムサンプリングが可能な場合と不可能な場合があります。 -- H17.8.7

ランダムサンプリングが不可能な場合ってあるの？

　これは、多くの教科書には載っていません。教科書は、現在定説となっている知識を体系立ててまとめてあるものですから、体系的でも定説でもない知識とか、一部の例外については詳しくは取り上げられないのが普通だからです（例外はあります…）。

　では、「標本として選び出される確率（抽出確率）が，母集団を構成するすべての個体に対してわかっている」と言えない場合ってあるのでしょうか。手元の教科書を探してみたのですが、残念ながら見つかりませんでした（まぁ、当然とも言えますが…）。

　実は、かなりあります。というよりは、ランダムサンプリングが可能な場合の方が例外ということになるのかもしれません。もっとも、私自身も、最近の議論で必要になるまで、そんなことは考えたこともなかったというのが正直なところです…。しかし、結論はなかなか面白いので、参考までに皆さんに披露しておくことにしました。

　と言っても、あまりに簡単すぎて、「な～んだ」とがっかりされても困るのですが（笑）。

　え、そんなにもったいぶらずに教えろって？

　わかりました。f(^^;

　それと、既に知っている人も多いかもしれないので、そういう人は読み飛ばしてくださいね。

　「標本として選び出される確率（抽出確率）が，母集団を構成するすべての個体に対してわかっている」と言えない例は、母集団が無限である場合です。え、ウッソ～と言ってはいけません（笑）。例えば、物理法則では、母集団は宇宙の全ての場所と時間です。つまり、無限ですからランダムサンプリングは現実的な面だけではなく、原理的にも不可能ということになってしまいます。(*_*)

＃証明は省略しますが、無限と有限を対応させる方法があるかどうか考てみてください。

　しかし、無限と言っても、範囲が有限に決められている場合があります。例えば、０～１までの間の連続量についてランダムサンプリングをすることは可能です。０～１までには無限の数（有理数と無理数）がありますが、範囲そのものは有限だからです（でも、このランダムサンプリングには意味があるのかなぁ？）。しかし、範囲が決められていない場合は（例えば、自然数全部とか）は、通常のランダムサンプリングは原理的に不可能です。

　以上のことから、ランダムサンプリングが可能な場合の方が例外ということになるのかもしれませんね。 -- H17.8.7

結局、「血液型と性格」のデータには、ランダムサンプリングが必要なの？

　では、いよいよ感動のクライマックス…ではなくて、「血液型と性格」についてです。(^^;;

　ここまででわかったのは、

正確な統計的な推測をするためには、ランダムサンプリングが必要
母集団が無限である場合は（ただし有限の連続量を除く）、ランダムサンプリングは原理的に不可能

　ということです。ところで、「血液型と性格」のデータの母集団ってなんでしょう？

　現在生存している全人類のことでしょうか？　それなら、世界の全ての国の人々にでランダムサンプリングをすればいいことになります。まぁ、現実的にできるかどうかは別ですが、これなら原理的には可能です。

　ところで、もう死んでしまった人や、これから生まれてくる人はどうなるのでしょうか？

　「血液型と性格」は、現在生きている人だけではなく、もう死んでしまった人や、これから生まれてくる人にも成り立たないとおかしいですよね？

　仮に、現在生きている人だけに成り立てば、過去から未来の全ての人類に成り立つと言えるとすると、過去と未来は現在と同じ状態であることになります。しかし、社会経済の環境や、年齢構成、地域による人口分布は、過去でも未来でも現在と同じはずがありません（当然！）。従って、現在のランダムサンプリングによって得られた結果が、過去も未来も成り立つとは必ずしも言えないでしょう。

では、「血液型と性格」のデータの母集団ってどう考えればいいのでしょうか？

　過去のことを考えてみましょう。現在までに存在したホモ・サピエンスの数は、現在生存している１人当たり約３０人と言われています。これは有限ですから、現実的にできるかどうかは別として、タイムマシンでも使えば一応はランダムサンプリングは可能です（笑）。
　しかし、未来はどうでしょうか？ホモ・サピエンスの種としての寿命は有限でしょうが、○○万年と決めることは（少なくとも現在は）できません。ですから、サンプル数は自然数的な無限大と仮定するしかありません。

　あれ？

　前述のとおり、母集団が無限である場合はランダムサンプリングは原理的に不可能です。

　あれれ？？

　結局、「血液型と性格」のデータのランダムサンプリングは、原理的にも現実的にも不可能ということになります。

　あまりに簡単すぎて、「な～んだ」とがっかりされても困るのですが（笑）。

　となると、なぜランダムサンプリングにこだわる人がこれだけ多かったのか、とっても不思議に思えてきませんか？

　だって、元々ランダムサンプリングなんて不可能だったのですから…。 -- H17.8.7

【H17.8.12追記】

　ところで、多数例研究の方法と限界では（太字は私）、

　統計研究における母集団について、Fisherはそもそも母集団は研究者の想像の中にしか存在しないと考えた。一般には母集団からの無作為抽出と検定を反復することで、確率的な検定の結果を確かめると思われがちだが、Fisherによればこれも空想にすぎない。サイコロの目ならばともかく、現実の介入試験を同じ条件で反復することなど出来ないからである。彼の意見には極端な点もあるが、たとえばうつ病の研究をすると言った場合に、その母集団は過去、現在、未来、そして地球上の各地域におけるうつ病の全体なのであろうか。とすると母集団は無限と言うことになり、これを代表するサンプルを考えることは不可能である。もちろん、地域、年代によるうつ病研究を比較して、それがうつ病そのものの特性に影響するか否かをしらべることはできる。しかしその場合でも、地域、時間に対して無作為なサンプル抽出を行うことはできない。無作為性について多くの場合に行われているのは、ある病院を受診した患者の中から無作為にサンプルを選ぶことである。しかし、その病院における無作為性が、対象となる病気の集団についての無作為性とはならない。

　とあります。どうやらこれは、Fisher流の考え方のようです。

［蛇足１］物理法則には、ランダムサンプリングが必要なの？

　以上のことから、物理法則を証明するには、ランダムサンプリングが使えないことがわかったかと思います。それなら、物理法則なんて普遍的に成り立つはずがないからナンセンス、と思う人がいるかもしれません。

　実はそうではないのです！

　物理法則の場合は、「普遍的に成り立つ」という前提があります。地球上で成り立つ物理法則は、太陽の真ん中でも、宇宙の果てでも、過去でも、未来でも…普遍的に成り立つと仮定しているのです。

　従って、現在までに得られているデータを矛盾なく説明できれば、その物理法則は正しい（正確には、現在まで間違いが証明されていない）とされます。

　「血液型と性格」も同じではないのでしょうか？皆さんはどう思いますか？　-- H17.8.7

［蛇足２］ランダムサンプリングが信用できない場合はあるの？

　いくら事前にランダムサンプリングをしていたとしても、きちんとした統計的な推測ができない場合があります。
　たとえば、回収率について説明している前掲書の３５ページから引用しておきます（太字は私）。

　標本統計量から母集団統計量を推測するための統計学理論（推測統計学）とは，計画標本と調査母集団の関係を述べたものである．つまり，回収率が１００％である場合にのみ有効なのである．しかし、実際には計画標本の一部である有効標本から得られた統計量（調査結果）から統計的推測を行わなければならない．これが可能であるためには，回収率が１００％かそれに近い値でなくてはならないが，現実には，はるかに低い回収率しか達成できないことが少なくない．このような有効標本から統計的推測を行うことは，厳密に言えば統計学の誤った適用と言わざるを得ない．

　つまり、「メイキング」をしなくても「非回収誤差」がある場合は、いくら事前にランダムサンプリングをしても「厳密に言えば統計学の誤った適用と言わざるを得ない」ということになります。

　いずれにせよ、あまりにも回収率が低いアンケートの結果は信用しない方がよさそうです。　-- H17.8.7

［蛇足３］無限母集団でもランダムサンプリングができるの？

　無限母集団ではランダムサンプリングができないと書きましたが、実は例外があります。f(^^;;

　例えば、サイコロを振ってでき具合を見る場合です。サイコロの目の統計的推測をするためのサンプルは有限ですが、母集団は事実上無限ということになります。　-- H17.812

ホームページへ

ＡＢＯ ＦＡＮ