浮動点から世界を見つめる

井蛙には以って海を語るべからず、夏虫には以て冰を語るべからず、曲士には以て道を語るべからず

COVID-19:世界の状況とGIGO

新型コロナウイルス感染症(COVID-19)に関するメモ(38)

世界全体の累計死者数が100万人を超えた現在の状況は下図のとおりである。

横軸は「累計死者数」。縦軸は「7日移動平均の死者数」である。(対数表示)

アメリカ、インド、フランス、スウェーデン、日本を選んだ。

この状況をどう考えるか?

f:id:shoyo3:20201006181143j:plain

Our World in Data(https://ourworldindata.org/grapher/confirmed-covid-19-deaths-total-vs-daily?time=2020-01-22..latest

 

以下は、同サイトより、7日移動平均の「感染者数」及び「死者」を、アメリカとフランスを選んで見たものである。

f:id:shoyo3:20201006181219j:plain

感染者数:アメリカは「高止まり」している。フランスは「急増」している。

これを死者で見ると、

f:id:shoyo3:20201006181307j:plain

死者数:アメリカは「高止まり」していない。しかし、6月中旬以降、「下げ止まり」で「収束」に向かっているとは言えない。フランスは「急増」していない。ほぼ「横ばい」と言っていいだろう。

この状況をどう考えるか?

「年齢別」のデータがない。感染者については「症状の程度」のデータがない。私は、これらは全く「基本的なデータ」と考えるが、なぜかマスメディアの報道がほとんどない。 

■正しく恐れる

■冷静な頭脳と温かい心

■鳥の目、虫の目、魚の目、心の目

 

上図を概観するに、全体として収束に向かいつつあるように見える。しかし、今後は予測できない。

私たちは、感染症の拡大防止策(防疫)に合意を得られたのか? (「治療」に関しては、対策に大きな意見の相違はないと考えられる)

私にはとても合意を得られているとは思われない。COVID-19に限らず、今後新種ウイルスによる感染症リスクが予想されるとき、どういうリスク管理をするのか?

3500万人超の感染者、100万人超の死者とされるCOVID-19(新型コロナウイルス感染症)の膨大な症例データを目の前にして、「防疫」に関して、感染症専門家はどのような分析をしているのだろうか? 

恐らく部分的に分析はされているのだろうが、マスメディアからは何も伝わってこない。

 

Garbage in Garbage out(ガベージ イン ガベージアウト、GIGO)いう言葉が思い浮かんだ。「ゴミを入力するとゴミが出力される」。すなわち、「『無意味なデータ』をコンピュータに入力すると『無意味な結果』が返される」という意味である(Wikipedia)。

f:id:shoyo3:20201006181551j:plain

https://ivyrosecreations.com/wp/gigo/

 

ここでの問題は、感染症の拡大を防止するにはどういう対策が望ましいか?である。

言い換えれば、「システム」に、「有意味なデータ」を入力して、「有意味な結果」(=目的=社会生活を破壊することなく、感染拡大が防止できる)を得たいということである。

恐らくは、目的(=社会生活を破壊することなく、感染拡大が防止できる)に関しては、大方の合意を得られよう。

そこで、「有意味なデータ」と「システム」がいかなるべきかが問題となる。

 

伴果純は、GIGOについて、次のように述べている*1。(マーケティングにおけるビッグデータ分析)

  • あなたは、きちんとデータをクリーニングしていますか?
  • あなたは、きちんと分析用データに変換していますか?
  • あなたは、きちんと必要な変数を作っていますか?
  • そして、あなたは、きちんと仮説を持ってデータを分析していますか?

COVID-19に関しては、(世界全体で)すでに膨大な症例データがある。このビッグデータを分析しようという感染症専門家がいなければ、話にならないのだが…。

1.データ クリーニング

  • データは、「きれい」で「定常的」でなければならない。異常値(外れ値や欠損値)が含まれていてはならない。
  • 「外れ値」はきちんと削除、「欠損値」は何かしらのルールに則り埋め合わせるなどをしてきれいにする必要があり、更には“時系列”という視点での対処が重要となる。

「死因」が「死亡診断書」に基づくものであれば、データが本当に「きれい」なのか疑わしい。

「死者数」という基本的な数字さえ、なんら遡及訂正しないでそのまま掲載するというのでは、時系列データとなりえない。

 

2.分析用データへの変換

  • 別々の目的、別々のフォーマットで管理されているデータを、分析という目的に沿った形で、一元的に整える必要がある。

多種多様な分析項目の標準化がどれほどなされているか。もし標準化できなければ、どのように変換するのかを考えなければならない。

 

3.必要な変数

  • ビッグデータは多種多様なデータが網羅的に蓄積される。
  • 分析の世界では細かすぎたり、逆に大雑把すぎたり、要は分析に適した形になっておらず 、素のままでは「Garbage in」になってしまうことが多々ある。分析に適した形にするために、似たもの同士を一つの変数にまとめたり、データからルールを見つけて別の変数に変換したり、フラグ化したり、はたまた第三者データから必要な変数を持ってきて追加することなど、目的に沿った変数を揃えなくてはならない。

性別、年齢、症状の程度、症状の変化、既往歴、健康診断データ、地域、住所、人種、行動履歴、所得、生活環境、交友関係、思想信条、健康保険制度、医療体制、コスト、……。人の健康に影響を及ぼす要因は無数にある。分析目的(社会生活を破壊することなく、感染拡大を防止すること)に沿った変数をいかに揃え測定するか。

「感染者(&死者数)」のみを入力して、(それがゴミだとは言わないまでも)、「有意味な結果」が得られるとはとても考えられない。

 

4.仮説検証

  • その昔、ビッグデータ分析の世界は「仮説検証」ではなく「探索型」であると言われた時代があった。しかし、現在においてそれは全くの間違いである。
  • 課題に対して全く仮説を持たず、闇雲にビッグデータ分析することは、広い砂漠の中からたった一つの星砂を見つけることに等しく、無謀以外の何物でもない。
  • 限られた時間、限れたリソース、そして膨大なデータを相手に、効率的に意味のある結果にたどり着くにはどうすればよいのか? 

伴は、「SEMMA」を紹介している。(興味ある方は、*1の記事を参照されたい)

  • 「仮説」が非常に大切。
  • 目的変数に対し、なにを説明変数にするのか。これを考えることも仮説構築の1つ。
  • これらを考えることが分析者の醍醐味であり、センスの発揮のしどころである。

当然、分析者により、異なるモデルが考えられる。それをどう評価するか。

COVID-19のみならず、他の感染症(さらには他の病気)に対しても有効なモデルを構築すること。

感染症専門家に期待することは、占い(「可能性」があると言うだけ)でもなく、過去の感染症と同じようなことが起きると脅すことでもなく、海外の研究論文を無批判に紹介することでもなく、検証なき仮説の言いっぱなしでもない。ましてや「国益」を持ち出すことでもない。

実際の膨大なデータに基づき、モデルを構築し、仮説検証することである。そして議論すること。そこからしか、「有意味な結果」は出てこないように思われる。

 

以上、無知なる素人の独り言でした。