テキストマイニングの練習です「景況感」へのコロナの影響

 テキストマイニングもそこそこ実績を積んでノウハウもためたが
「いかにも、ってのやってないなあ」
ということに気がつく。具体的には「アンケート結果の分析」だ。
 なにかネタはないかと思ったら内閣府が毎月発表している「景気ウォッチャー調査」というのがあった。各地方で、いろいろな業種・職種に「今の景気はどうですか?」と尋ねたものだ。
 アンケート項目は「地域」「分野(家計/企業/求人)」「景況感(5段階)」「業種(小売店とか通信会社とか)」「職種(ざっくりいうと経営者か従業員か)」「(景況感を)判断した理由」そして「説明」である。この「説明」が自由記述でいかにもテキストマイニング向き。

 内閣府でもこれを分析した結果は出しているし、それをさらに分析したレポートをシンクタンクあたりが発表していたりする(若手の練習の場なのかな?)。がこれがいいのは生に近いデータを一覧表で提供してくれていることだ。しかも結構数が多い。ひと月分で1200とか1300。割とやりがいがある。

 ほんじゃあ、テキストマイニングツールに入れて・・・と行きたいところだがそれだとテキストマイニングが目的化するし、何より発見したことがあったとしても、それは偶然の産物となる。とにかく分析してみよう、というアプローチを否定はしないが、ここは観点を絞ることにした。「新型コロナの影響」である。

 というわけで、いつから分析対象とするか自動的に決まる。新型コロナウィルスという単語が出てくるのはいつが最初かと検索をかけたところ2020年1月だからそこから分析すれば良い。
 もちろん検索する前にざっと見たよ。内閣府は公表データを作る際に用語の統一やってくれているね。生データにはCOVID-19や武漢肺炎といった用語が使われていないわけがないのだが、見事に「新型コロナウイルス」と統一されている。同様に「Go To Travelキャンペーン」きっちり全角文字の表記に揃えられている。オープンデータ初期とは随分な違いだ。内閣府、有能だなあ。

 実はここに来るまでひと悶着あって、公開データはPDF。しかも表形式。取り回しが悪い。毎月1ファイルというのもいまいち。例えばMicrosoft Excelに書き出して分析しやすく、を考えたのだがどーしてもうまくいかない。Pythonのライブラリで使えるというのがあったはずなのだが。結局はPDFをテキストファイルとして保存し直して、それを読み込んでデータを抽出する、というプログラムを書いたのだが、ベタ打ちで出力というのが案外使いにくくてね。「殆どの場合はうまくいくが、改ページがあると」とか「営業性個人は職種がない」とかまあ、それなりにあって。100%分けられるようになったのはちょっと時間がかかったということ。

 父の教えで「わからないときは比較しろ」というのがある。というわけでアンケートの自由記述から新型コロナウイルスに関連するものを引っ張り出し、そうでないものと景況感の変動を比較することとした。では「新型コロナウイルス」があるアンケート結果を検索して、といきたいが、自由記述の内容を見ると「新型コロナウイルス」の他にも「緊急事態宣言」「ワクチン」「感染者」あたりも関係しそうだ。「自粛」を入れるかどうか迷ったがまずは見送り。
 「新型コロナウイルス」という後に続いて「〜により」と「〜にもかかわらず」と続く両パターンがあるが、これは「新型コロナウイルス」に関連して、という要素に注目しているわけであって、景況感の上下動はあくまで結果、ということだから考慮しなくていいだろう。

 というわけでコロナ関連ワードの有無でフィルタして景況感への影響を見る。あ、5段階の景況感、もともとは◎、○、□、▲、×、だけど-2,-1,0,1,2の数値にしたよ。  これを時間の経過で折れ線グラフにする。調査結果はどの地方かも入れてくれているのでそれでも分けてみる。ついでに感染者数の増減とグラフを重ねる。景気は上向きが「良」、感染者は上向きが「増」では読み取りにくいので、感染者増減は上下逆にして。  GOTOキャンペーンの効果、はっきり出てますねえ。全国的に2020年10月〜11月のGOTOトラベルキャンペーンの期間中、好況感が上がってます。
(ここでのグラフには、景況感しか入れてないです。感染者数も重ねようかと思ったのですが、指数計算して、幅がわかりやすいようにとするのが「面倒」だったのでそこまでやってません。あしからずご了承ください。)

 特徴的なのが沖縄で、一般に感染者は少ないです。でもって全国的に感染が少ない時期は観光客が増えているようで、特にGOTOトラベルキャンペーンの時期は(国策に逆らって自粛を強いられたわたしみたいな人間からすると)能天気と言っていいほど景気が良かったみたいです。
 どこかに気の緩みがあったのですかね。オリンピックの第五波で「どどーん」。「もうすこし慎重に対策しとけばよかったんじゃないの?」といいたくなる程度にはアレです。
 コロナ関連のワードを含んだ景況感とそうでない景況感のグラフの乖離が大きいことからも、新型コロナはどこか他人事と捉えていたことが伺えます。

 さてポイントは「GOTOキャンペーンは地方に好況感をもたらしたことが証明された。なのでまたやろう」と思ってほしくないこと。だって経済規模最大の地方、南関東にはあんまり影響ないんだもん。グラフの形は全国のそれと似てるけど、やっぱり景況感はマイナス。

 だから地方ごとの経済規模を計算に入れると効果は限定的、と見ないといけないんじゃないかしら。やるとしてもGOTO原資相当額を人口に応じて地方自治体に配分し、使途は自由とする、ってところでいいのでは?え?たまったもんじゃないって、でも都会ではGOTOイートの予算がとれるので豪勢な食事の機会が増えそうだ。

社会問題ネタ、目次
ホーム