7.27 【選挙の続き】
7.21に書いた件についての続き。前に行った計算では、それぞれの得票率の区間推定を行ってそれらを比較していたが、それではあまり正確でないような気がするので訂正。Aの95%信頼区間の最大値とBの95%信頼区間の最小値を比べて、Aの最大値<Bの最小値だったとしても、A<Bである確率は97.5%ではなく、95.0625%よりは大きいということしかわからない。Aが最大値以下で、Bが最小値以上の時にしか確実なことは言えないから、97.5%*97.5%以上であることしかわからないというわけ。ふむ、なんだかややこしいな。
だったら、A-Bを区間推定してやればいいような気がする。Aの分布もBの分布も共に正規分布だとすれば、A-Bの分布は、平均「Aの平均-Bの平均」、分散「Aの分散+Bの分散」の正規分布となるはず(正規分布の加法性より)。前に書いた選挙の場合について計算すれば、n票を取り出した時に松形氏の得票数-安藤氏の得票数がrである確率は、平均1100、分散5403の正規分布に従う(標準偏差は73.51)。これより、全体の票の中の松形氏の票の割り合い-安藤氏の票の割り合いをpとすれば、11500pの95%信頼区間は956〜1244で、明らかに松形氏の票の方が多くなる。ちなみに逆転が起こる確率については、平均を標準偏差で割ると7.63が出てくるから、正規分布で平均から標準偏差*7.63だけ離れる確率の半分……無視できる。
こうして前よりは正確な方法で調べることができたが、実際には松形氏の得票率と安藤氏の得票率は独立ではないのでまだ気になる部分が残る。あとは、両氏の得票数が同じであると仮定して期待値からのずれからc2検定(文字化けしたら失礼)を行うくらいかな。c2=136.0となり、自由度は1だから、3.84をこえる確率が5%。これより明らかに大きく、有意差あり、と。
話は変わって、10票中5票を開票した場合をちょっと考えてみる。ずっと「票」で考えるのもなんなので、10個ボールが入った箱から適当に5個取り出した時、3個が赤、2個が青だった場合に、10個のボールのうち赤の数と青の数を比較し、赤>青である確率を求めてみる。
まず少なくとも赤は3つ、青は2つ以上入っている。仮に、赤が3つ、青が2つだけ入っていて(残りは他の色)5つを取り出した時に赤3つ、青2つが取り出される確率は、3C3
* 2C2 / 10C5だから、1/252。同様に、赤3つ、青3つの時は3/252……と計算していくと、
赤\青 |
2 |
3 |
4 |
5 |
6 |
7 |
3 |
1/252
|
3/252
|
6/252
|
10/252
|
15/252
|
21/252
|
4 |
4/252
|
12/252
|
24/252
|
40/252
|
60/252
|
-
|
5 |
10/252
|
30/252
|
60/252
|
100/252
|
-
|
-
|
6 |
20/252
|
60/252
|
120/252
|
-
|
-
|
-
|
7 |
35/252
|
105/252
|
-
|
-
|
-
|
-
|
8 |
56/252
|
-
|
-
|
-
|
-
|
-
|
こんな表が得られる(「-」の部分は、あり得ないもの)。これより、例えばもともと赤3個、青2個であった確率は、1/252をこの表の確率すべてを足したもので割った値だから(ベイズの定理だっけ?)、1/792。同様に他のものについても求めていけば、上の表のそれぞれの分母を単に792で置き換えたものが得られる。
さて、これで赤>青である確率を求める準備ができた。赤>青となるのは、上の表で赤く塗った部分から求まる確率の合計だから、513/792で64.77%。ついでに青>赤となる確率は19.19%、赤=青となるのは、16.04%となる。
票数が少ない場合にはこんなやり方で正確に求めることができるわけだが、上にちょっと書いたように「独立である」場合はどうなるか。今度は、10個ボールが入った箱(A、B)が2つあり、どちらからも5個ずつボールを取り出したところ、Aから取り出した方には赤いボールが3個、Bから取り出した方には赤いボールが2つ含まれていた。このことからAに入っている赤いボールの数>Bに入っている赤いボールの数となる確率を求める。
今度はさっきより簡単で、まずAの箱について考えると、赤いボールが3つあってその3つを取り出した確率は3C3
* 7C2 / 10C5だから21/252、以下同様にさっきと同じように計算していくと、A>Bになる確率は73.48%となり、さっきの64.77%とは結構差があるという結果になった。数が多くなってくればほぼ独立であると見ても構わないと思うが、そうでない場合は注意が必要ということかな。
ちなみに、この例について最初に行ったようにA-Bの分布を考えると、平均1、標準偏差1.549の正規分布となり、1/1.549=0.6456だからA-Bが0以上である確率は74.06%。nが小さいからあまりあてにならないかと思ったが、さっきの結果とほとんど変わらない。nが小さくてもpが0にも1にも近くない場合なら十分使えるというわけか。
途中で何度か混乱しつつ計算したので間違っているところがありそうな気がするけど、なにか変なところを見つけたら教えてくださいませ(^^;;;
次回は再びCarbonかもしれないが、予定は未定。ドキュメントを読んでいたらいろいろ書いてあったのでそれに従って修正、修正と。
|