浮動点から世界を見つめる

井蛙には以って海を語るべからず、夏虫には以て冰を語るべからず、曲士には以て道を語るべからず

COVID-19:因果関係に迫る思考法(1)

新型コロナウイルス感染症(COVID-19)に関するメモ(85)

※ 当ブログのCOVID-19関連記事リンク集 → https://shoyo3.hatenablog.com/entry/2021/05/06/210000

新型コロナ関連の、テレビ・新聞・雑誌・ネットの報道を見ていて、データ分析が小学生レベルではないかと思うことがよくある。ど素人がこんなことを言うのはおこがましいが…。

データ分析の力 因果関係に迫る思考法』(伊藤公一朗著)という本がある。COVID-19前の2017年4月20日発行の本である。従いコロナに関する言及はないが、大いに参考になるので紹介したい。

数理統計に関する本など読みたくもないという人が多いだろうが、この本は数式を一切使っていなくて、中高生からでも十分読み進められることを意図した超入門書である。(引用とコメントを従来形式に戻します。なお、引用は「ですます調→である調」のほか、若干変更した部分もあり、一言一句同じではないところもあります。もちろん文意は変更していません。2021/8/21)

 はじめに

あらゆる場でデータ分析が求められる時代

データ分析の力が特定の専門職に就いている方だけでなく、これまで以上に多岐にわたる職種において要求されるようになってきている。(例)広告が売上に及ぼす影響? 労働時間が営業成績にどんな影響を及ぼしているか? 去年実施した補助金政策がどれだけの効果をあげたか? どの教育教材が効果があったか?

COVID-19に対する諸政策がどれだけの効果をあげたか?

 

文系にも理系にも求められる分析力

上記例だけでも明らか。

自分がデータ分析の当事者でない場合にも、「誰かのデータ分析に騙されないために」データ分析の結果を見極める力が重要になってきている

 

ビッグデータ時代にも不可欠な分析力

データの扱い・分析・解釈においては、人間の判断が重要な役割を担う

ビッグデータが存在するだけでは実務の改善に至ることは難しく、ビッグデータを解析しビジネス現場の意思決定に利用できる形にする分析力(アナリティクス)が重要だという認識が高まってきている。

本書で焦点を当てる「因果関係の見極め方」においては、データの量が増えても根本的な解決にはならないので、私たち自身がデータを見極める力を備える必要がある

  

寿司職人の仕事に通じるデータ分析の心得

美味しい寿司を提供するのに最低限必要な3つのこと…①素晴らしいネタを仕入れること。②ネタの旨味を生かせる包丁さばき。③お客さんが求めている味や料理を提供すること。

多くの人が比較的容易に良いデータ(ネタ)を手に入れられるようになったが、「データをどのような角度で切るのか」というセンスや思考法を身につけないと、折角のネタを生かす分析はできない

これまでCOVID-19に関するまともな、「なるほどそうなのか」と腑に落ちる(上記①②③を満たす)データ分析を見たことがない。誰かが分析しているのかもしれないが、マスメディアでは報道されない?

 

因果関係を見極めることは、ビジネスや政策の様々な場面で鍵となる

因果関係を真剣に行うと、良かれと思って行った政策が予測しなかった結果をもたらしたり、逆に効果が小さいと思われていた政策が実は大きな政策効果を生みだしていたことも明らかになる。

 

因果関係か相関関係か?

f:id:shoyo3:20210810174947j:plain

毎日新聞、コトバ解説より、https://mainichi.jp/articles/20170119/mul/00m/040/00600sc

 

本書の著者(伊藤)は、(入門編では)数式的な理解ではなく「直観的な考え方の理解」が大切だと考えている。

 

第1章 なぜデータから因果関係を導くのは難しいのか

例1:広告の影響でアイスクリームの売上が伸びた?

2010年にアイスクリームのウェブ広告を出したところ、広告を出さなかった2009年と比較して、2010年は売上が40%上昇した。

これがデータ分析と言えるか?

このデータ分析から、広告→売上への因果関係(Causal relationship/causality)を導けるか?

2010年の夏が2009年の夏よりも猛暑だった場合は? 経済が全体的に良くなって消費者が財布の紐を緩めた可能性は?

広告以外の様々な要因が売上に影響する。 例2、例3も興味深いが省略する。

 

因果関係を立証するのが難しい理由1:他の要因が影響していた可能性がある

データ分析者は、ある要素X:広告)が、結果Y:売上)に影響したと主張したが、通常、世の中は実験室のように単純ではない。Xを発生させたと同時期に、色々なことV)が起こりうる。つまり、「Yが変化したのはX以外の他の要因Vの影響だったのでは?」という問題を排除できない

少なくとも、Vの影響を考慮しない分析は、データ分析の名に値しない。

 

因果関係を立証するのが難しい理由2:逆の因果関係だった可能性もある

アイスクリームの例では、「2010年の初期に猛暑の影響でアイスクリームの売上が伸びたので、会社としてはその売上金を使ってウェブ広告を始めてみた」という可能性がある。

 

因果関係は相関関係とは違う

ある要素Xと結果Yに相関関係があることがわかっても、その結果を用いて因果関係があるとは言えない

XとYに相関関係がある場合に起こり得る3つの可能性…①XがYに影響を与えている可能性、②YがXに影響を与えている可能性、③VがXとYの両方に影響を与えている可能性。

 

世の中は怪しいデータ分析結果であふれている

問題なのは、怪しい分析結果に基づく単なる相関関係が「あたかも因果関係のように」主張され、気をつけないと読者も頭の中で因果関係だと理解してしまっていることが多いという点である。

「人の流れを抑える」あるいは「飲食店への規制を強化する」(X)→感染者が減少する(Y)は、相関関係なのか、因果関係なのかをよく考えてみる必要がある。

残念ながら、新聞やテレビで主張されていることの多くは、相関関係を誤って解釈して因果関係のごとく示されているものなのである。

「感染者増→重症者/死亡者数増」は、相関関係なのか因果関係なのか、よく考えてみよう。

 

なぜ因果関係を見誤ると問題なのか?

アイスクリームの例で、「広告→売上増」の分析をもとに「では今年度も数千万円を投じて広告を導入し、売上を伸ばそう!」という決断がなされた場合どうなるか? 売上増が気温や経済活動の変化といった他の影響だった場合、数千万円の投資が無駄な出費になってしまう

感染者減少が、「人の流れを抑える」あるいは「飲食店への規制を強化する」ではなく、他の影響だった場合、数兆円の対策費用が無駄な出費になってしまう。

物事を決定する際に鍵となるのは多くの場合「因果関係」であり、相関関係ではない

 

電気をつけたまま子供を寝かせると近視になる?

この近視説は、ある大学研究者がNatureという権威ある学術誌に発表したものだが、後日の研究で、①近視を持つ親ほど寝る時に電気をつけていることが多く、②近視の親を持つ子供ほど「遺伝的に近視になりやすい」ということだった。

(当の研究者は論文で、「相関関係を示しているだけで、因果関係を主張しているわけではない」と丁寧に述べているのだが、この論文を取り上げたメディアが「電気をつけたまま寝かせると子供が近視になる!」と大々的に取り上げてしまった。その結果、多くの親たちが子育てに際してこの因果関係を信じることになった)

この例では実害はさほど無いだろうが、COVID-19に関しては莫大な実害をもたらす。

 

データを集めることで他の要因をすべて排除することはできるのか?

解決法の一つとして伝統的に紹介されてきたのは、考えられるだけのVのデータ(他の要因として考えられる要素のデータ)を頑張って集めて、できる限りVの影響を統計分析によって除くという手法である。

しかし問題は、どれだけたくさんの種類のVの要素を考慮しても、「もしかしたら別の要素も影響したかもしれない」という可能性が無限に出てきてしまうことである。さらに、Vとして考えられる要素の中にはどうしてもデータとして手に入らないものもある。

現在では、因果関係を求める際には、Vとして考えられるデータをできる限り集めてくることは有用ではあるが、非常に限界があると考えられている。

COVID-19に関しては、限界の認識以前に、「Vとして考えられるデータをできる限り集めてくることの有用性」さえ認識されていないように見受けられる。

 

データ観測数が増えてもバイアスの問題は解決しない

ビッグデータは、因果関係の問題を根本的には解決してくれない。

因果関係を正しく分析するのは難しいという問題は、統計学用語で「バイアス」と呼ばれる。バイアス(bias)とは、直訳すると「分析で得られた推定量の偏り」である。

(例)子供にノートパソコンを無償支給すること(X)が子供の成績(Y)に与える因果関係について:ノートパソコンが欲しいと手を挙げた生徒だけにパソコンを無償支給し、パソコンを受け取らなかった生徒との成績を比較したとき、成績が20%向上したと分析した場合。本当は他の要因である学習意欲(V)という要素が影響していたとすると、本当は0%の影響であるべきところ、20%成績向上したという。この0%と20%の違いを「データ分析が間違っていたために出てきてしまった間違い=バイアス」と呼ぶ。

データの観測数が100人ではなく、数万人規模に増えた場合、このバイアスの問題は解決されるだろうか?

このバイアスの問題は、データ観測数がどんなに増えても解決できないということが数学的に証明されている。そのため、ビッグデータがすべてを解決するという論調は、少なくとも因果関係を分析する際のバイアスに関しては正確ではない

COVID-19報道に関して、ときどきビッグデータという言葉が出てくるが、そんな流行り言葉を使ったところで、何かが正しく分析されていると思い込まないことが大切である。

では解決策はないのか? 次章以下で、解決策の様々な方法が紹介されている。