COVID-19：世界の状況とGIGO - 浮動点から世界を見つめる

新型コロナウイルス感染症（COVID-19）に関するメモ（３８）

世界全体の累計死者数が１００万人を超えた現在の状況は下図のとおりである。

横軸は「累計死者数」。縦軸は「7日移動平均の死者数」である。（対数表示）

アメリカ、インド、フランス、スウェーデン、日本を選んだ。

この状況をどう考えるか？

f:id:shoyo3:20201006181143j:plain

Our World in Data（https://ourworldindata.org/grapher/confirmed-covid-19-deaths-total-vs-daily?time=2020-01-22..latest）

以下は、同サイトより、7日移動平均の「感染者数」及び「死者」を、アメリカとフランスを選んで見たものである。

f:id:shoyo3:20201006181219j:plain

感染者数：アメリカは「高止まり」している。フランスは「急増」している。

これを死者で見ると、

f:id:shoyo3:20201006181307j:plain

死者数：アメリカは「高止まり」していない。しかし、6月中旬以降、「下げ止まり」で「収束」に向かっているとは言えない。フランスは「急増」していない。ほぼ「横ばい」と言っていいだろう。

この状況をどう考えるか？

「年齢別」のデータがない。感染者については「症状の程度」のデータがない。私は、これらは全く「基本的なデータ」と考えるが、なぜかマスメディアの報道がほとんどない。

■正しく恐れる

■冷静な頭脳と温かい心

■鳥の目、虫の目、魚の目、心の目

上図を概観するに、全体として収束に向かいつつあるように見える。しかし、今後は予測できない。

私たちは、感染症の拡大防止策（防疫）に合意を得られたのか？（「治療」に関しては、対策に大きな意見の相違はないと考えられる）

私にはとても合意を得られているとは思われない。COVID-19に限らず、今後新種ウイルスによる感染症リスクが予想されるとき、どういうリスク管理をするのか？

3500万人超の感染者、100万人超の死者とされるCOVID-19（新型コロナウイルス感染症）の膨大な症例データを目の前にして、「防疫」に関して、感染症専門家はどのような分析をしているのだろうか？　

恐らく部分的に分析はされているのだろうが、マスメディアからは何も伝わってこない。

Garbage in Garbage out（ガベージインガベージアウト、GIGO）いう言葉が思い浮かんだ。「ゴミを入力するとゴミが出力される」。すなわち、「『無意味なデータ』をコンピュータに入力すると『無意味な結果』が返される」という意味である（Wikipedia）。

f:id:shoyo3:20201006181551j:plain

https://ivyrosecreations.com/wp/gigo/

ここでの問題は、感染症の拡大を防止するにはどういう対策が望ましいか？である。

言い換えれば、「システム」に、「有意味なデータ」を入力して、「有意味な結果」（＝目的＝社会生活を破壊することなく、感染拡大が防止できる）を得たいということである。

恐らくは、目的（＝社会生活を破壊することなく、感染拡大が防止できる）に関しては、大方の合意を得られよう。

そこで、「有意味なデータ」と「システム」がいかなるべきかが問題となる。

伴果純は、GIGOについて、次のように述べている*1。（マーケティングにおけるビッグデータ分析）

あなたは、きちんとデータをクリーニングしていますか？
あなたは、きちんと分析用データに変換していますか？
あなたは、きちんと必要な変数を作っていますか？
そして、あなたは、きちんと仮説を持ってデータを分析していますか？

COVID-19に関しては、（世界全体で）すでに膨大な症例データがある。このビッグデータを分析しようという感染症専門家がいなければ、話にならないのだが…。

１．データクリーニング

データは、「きれい」で「定常的」でなければならない。異常値（外れ値や欠損値）が含まれていてはならない。
「外れ値」はきちんと削除、「欠損値」は何かしらのルールに則り埋め合わせるなどをしてきれいにする必要があり、更には“時系列”という視点での対処が重要となる。

「死因」が「死亡診断書」に基づくものであれば、データが本当に「きれい」なのか疑わしい。

「死者数」という基本的な数字さえ、なんら遡及訂正しないでそのまま掲載するというのでは、時系列データとなりえない。

２．分析用データへの変換

別々の目的、別々のフォーマットで管理されているデータを、分析という目的に沿った形で、一元的に整える必要がある。

多種多様な分析項目の標準化がどれほどなされているか。もし標準化できなければ、どのように変換するのかを考えなければならない。

３．必要な変数

ビッグデータは多種多様なデータが網羅的に蓄積される。
分析の世界では細かすぎたり、逆に大雑把すぎたり、要は分析に適した形になっておらず、素のままでは「Garbage in」になってしまうことが多々ある。分析に適した形にするために、似たもの同士を一つの変数にまとめたり、データからルールを見つけて別の変数に変換したり、フラグ化したり、はたまた第三者データから必要な変数を持ってきて追加することなど、目的に沿った変数を揃えなくてはならない。

性別、年齢、症状の程度、症状の変化、既往歴、健康診断データ、地域、住所、人種、行動履歴、所得、生活環境、交友関係、思想信条、健康保険制度、医療体制、コスト、……。人の健康に影響を及ぼす要因は無数にある。分析目的（社会生活を破壊することなく、感染拡大を防止すること）に沿った変数をいかに揃え測定するか。

「感染者（＆死者数）」のみを入力して、（それがゴミだとは言わないまでも）、「有意味な結果」が得られるとはとても考えられない。

４．仮説検証

その昔、ビッグデータ分析の世界は「仮説検証」ではなく「探索型」であると言われた時代があった。しかし、現在においてそれは全くの間違いである。
課題に対して全く仮説を持たず、闇雲にビッグデータ分析することは、広い砂漠の中からたった一つの星砂を見つけることに等しく、無謀以外の何物でもない。
限られた時間、限れたリソース、そして膨大なデータを相手に、効率的に意味のある結果にたどり着くにはどうすればよいのか？

伴は、「SEMMA」を紹介している。（興味ある方は、＊１の記事を参照されたい）

「仮説」が非常に大切。
目的変数に対し、なにを説明変数にするのか。これを考えることも仮説構築の１つ。
これらを考えることが分析者の醍醐味であり、センスの発揮のしどころである。

当然、分析者により、異なるモデルが考えられる。それをどう評価するか。

COVID-19のみならず、他の感染症（さらには他の病気）に対しても有効なモデルを構築すること。

感染症専門家に期待することは、占い（「可能性」があると言うだけ）でもなく、過去の感染症と同じようなことが起きると脅すことでもなく、海外の研究論文を無批判に紹介することでもなく、検証なき仮説の言いっぱなしでもない。ましてや「国益」を持ち出すことでもない。

実際の膨大なデータに基づき、モデルを構築し、仮説検証することである。そして議論すること。そこからしか、「有意味な結果」は出てこないように思われる。

以上、無知なる素人の独り言でした。

*1:データドリブンマーケティングで大事なこと：Garbage in Garbage out