コロナ感染者数を重回帰分析すると(巨悪は通勤電車)

 いま、統計学者は息を潜めて地下にもぐっているに違いない。
 研究すると消されるからだ。
 少なくとも学術会議のメンバーになるのは絶望である。内閣がコントロールすることになったからだ。

 さて、私のコンピュータの師匠は伯父であるが、パソコンの師匠は従兄である。H98でWindows2.11を動かしていたと言ってもなんのことを言っているのか想像がつくひとは稀であろう、それくらいのひとである。曰く、人の半歩先をゆくには倍の投資がいる。というわけで98XL2なんかも持ってたりして。この人に随分お世話になった。プログラマとしてもすごい人で、県立高校の入学試験結果処理プログラムはソースを打ち出すのにドットプリンタで2時間かかったという規模にもかかわらず一発で動いた。というわけで知らないうちに世話になっていた人は教職員、生徒を問わずそれなりにいるに違いない。
 先年なくなったが、そういえば「おい、今度東京行くことになった。メシおごるから秋葉原案内せい」と言われたことがなかったのがとても寂しい。アキバにどんな店があってそこは何が特徴か、は把握していたつもりだが、きっとその店で私が気が付かない「ものすごく面白いこと」を教えてくれことであろう。その息子が東京に来ることがあれば、供養だと思って秋葉原を案内してやろう。もっとも「アニメ関連」の資料を探すのに付き合うことになるだろうが。

 その従兄弟が言っていたパソコンを使うキラーアプリ、というか用途は「多変量解析」だそうだ。まあ分かるわな。人手ではどれだけかかるかわからない計算、これを任せることができれば見えなかったものが見えてくるようになる。
 もっともずーっと使ってなかったのだが、娘が卒業論文で統計を扱うことがあって、ついて学んだ。知ってはいたがMicrosoft Excelで相当できるのね。癪に障るほどかんたんである。そして丁度、その多変量解析、を使いたくなる事象が起こっている。

 新型コロナの流行を左右している要因はなんだろう。

 資料を探す、という能力は自分ではまあまあと思っていたが、それでも回り道した。Webで検索して、古い/部分的だ、と言いながらも[出典]を見て、そこに探しにゆき、あれリンク切れているじゃないと言いながら、あちらをつつき、こちらをつつき。

 とりあえず毎日の感染者数を都道府県別に見ることはできた。相関を調べるとするならば「三密」とか言っているから人口密度かなあ。人口関係の統計を見ると昼夜間人口の比率、なんてのもあったので適当に並べて「とりあえず重回帰分析」。(うわっ、とりあえず、でできるほど手軽にデータ処理できるんだ。)
 見方がわからん。(要するに単位、というか数字の大きさが揃ってないのでものすごくわかりにくい。)が、相関が高そうな要素はわかる。昼夜人口の比と感染者数、高い相関を示しているよね。ということは「通勤者」が影響しているのかな。比較できるようにするには標準偏回帰係数というのを出せばいいということがわかって、都道府県別各月のデータを一度z値に直してから再度重回帰分析。これで各要素の影響が直接比較できるようになった。

 あたしが相関を疑っているのは電車の混み具合。かといって混雑率データは今発表してないそうだし。全国でそのデータが揃うとは思えない。ホントは人キロ、あたりで見たほうがいいのだろうが、人キロの統計値は鉄道路線別にしか出ない。今のところ県別の感染者しか数字がわからないので(鉄道沿線の感染者数という統計があれば別だが)、相関が計算できるデータが揃いそうなものとして、都道府県ごとに「全駅の乗降車数を合計する」。
 最初は駅の乗降者数をWikipediaで集めようと思った。JRあたりはホームページから一網打尽でできそうだ。大手私鉄ならまとめてくれているサイトもあった。がいくらRPAを駆使しても「無理だなこれ」。あちこちのサイトの「出典」を辿ってゆくと公式な統計があるようだが、見えん。どこにリンクが有るのだ。すごく分かりづらかったが見つけて(なるほどxmlで出してるのね)、駅と県の紐付けはYahoo路線情報のデータをごっそりRPAで落としてきたのと突き合わせた。寝ている間にプログラム走らせたのだが、駅名が変わってたり、路線名の表記ゆれ(中央線/中央本線)があったりで、突合が自動でできなかったものが無視できないほどある。朝起きてから手動で直した。

 新規感染者数(累計)とPCR検査数(累計)は日次で出るけど、電車の乗降者数は年間。人口関係も年次。観光庁の出す観光客数は穴だらけだし、仕方なく県外からの宿泊者を引っ張ってくる。幸いなことにこれは月次。でも3ヶ月遅れ。

 出た結果は、感染者数と域内の鉄道駅の乗降車数の相関は極めて高く、偶然そうなる確率は10のマイナス5乗とかそのレベル。つまり実質的に「ゼロ」。となると、
電車で感染
が大きな要因であるというのを当然視せざるを得ない。いや乗降者数が増える要因とそれ以外のどこかにあるはずのコロナが広がる要因がかぶっているのだ、という仮設を作って反論したい人もいるだろうが、ところがねえ、6月は電車の影響が下がっているの。そういえば緊急事態宣言全面解除は5月25日。潜伏期間を考えるとすこぶる妥当。というわけで「電車の乗降者数はクロ」。

 夜の街の飲食店の売上との相関も高いけど、影響は8月をピークにどんどん下がっている。人が行かなくなったのか?店じまいしたのが多いのか?あるいは防疫ノウハウができたのか。つまり11月になって「自粛を求める」はそれほど重要性が高いわけではないのではないかな、ということ。

 もちろんこんな事を言うと政府に睨まれるので、統計学者はわかっていても黙っているしかないのだろう。(調査してないとは思えない。私は苦労したつもりだが、本職には片手間だろうからね。)
 ああ、調査している人いたよ。
https://qiita.com/y_itoh/items/b6254ca2acf8b875b593
すごい忖度。

 しかし、これかな?と思う要因を探して重回帰分析して、決定係数R2が0.98。0.85出れば嬉しいかなという中、異例の高さである。ひょっとしてあたしセンスある?
 今度は高齢者施設にいる人の数、あたりを分析に加えたくなるね。
(せめてグラフぐらい載せたいところだが、vectorのホームページエリア、フリーソフト作者へのサービスで貰ったんだけどずっと5MBのままなのよ。)

 なお、観光客の数はいまのところ大した相関を持っていない。県外からの宿泊者の数字、多分全国2位の県が異例なのかな(福島県です。原発事故の後始末で来ている人が多いのだろう)。11月に人口密度との相関が下がっているのも北海道の感染拡大が影響しているのは間違いなかろうし。

 GoToトラベルキャンペーンが反映する10月分が発表されるのが楽しみだなあ。影響は9月分にはねているはずだが、ほとんど関係ないのよね。これが東京解禁の途端、ってなると統計って、へーってなる。

社会問題ネタ、目次
ホーム