浮動点から世界を見つめる

井蛙には以って海を語るべからず、夏虫には以て冰を語るべからず、曲士には以て道を語るべからず

COVID-19:因果関係に迫る思考法(3) RCTの3つの鉄則

新型コロナウイルス感染症(COVID-19)に関するメモ(91)

伊藤公一朗『データ分析の力 因果関係に迫る思考法』(3)

※ 当ブログのCOVID-19関連記事リンク集 → https://shoyo3.hatenablog.com/entry/2021/05/06/210000

緊急事態宣言や人流抑制や飲食店等規制と感染/重症/死亡との関連、変異株と感染/重症/死亡との関連、ワクチンや治療薬の有効性や安全性など、データ分析(特に「因果関係」)が求められているにも関わらず、まともな分析を見たことが無い。ファクターXは明らかになったのだろうか。欧米、中南米、アジア等と比べて、日本の状況はどうなのか(欧米、中南米、アジア等の状況分析はできているのだろうか)。新型コロナ以外の他の疾病と比べてどうなのか。分科会専門家や政府厚労省の政策効果の分析はされているのだろうか。今冬はどうなるのだろうか。ワクチン接種で感染者減・死者減となるのか、それとも変異株や季節要因で感染者増・死者増となるのか。

 

今回は、第2章 現実の世界で「実際に実験をしてしまう」― ランダム化比較試験(RCT)の続きである(p.90~)。(この本は数式を一切使っていない。著者は、超入門書だと言っている)

前回は、因果関係をデータ分析によって明らかにする最良の方法は、ランダム化比較試験RCT:Randomized Controlled Trial)であるという話であった。

 

RCTの具体例2:オバマ前大統領の選挙活動におけるマーケティング戦略

前回と重複する部分があるが、詳しく見ていこう。

オバマ前大統領の目的は支持者からの支援金集めであった。そのため、ウェブサイトを訪れた人の多くに、メーリングリストに加入してもらえるようデザインを工夫することが考えられ、オバマ選挙チームは、以下のような6つの画面と4つのメッセージの24通りの組み合わせのうち、どれが良いかを議論した。*1

f:id:shoyo3:20210907170753j:plain

画面A:(画像)「Obama」の旗に囲まれる柔らかな表情の写真

画面B:(画像)家族と一緒に写っている写真

画面C:(画像)正面からアップで撮影した凛々しい表情の写真

画面D:(動画)オバマ氏が視聴者に向けて語りかけるパターン

画面E:(動画)演説の一部を抜粋したパターン

画面F:(動画)支援者の様子も映したパターン

https://juicer.cc/articles/archives/1273/

トップページに表示するボタンの4通りのメッセージ案

f:id:shoyo3:20210907171000j:plain

メッセージ1:SIGN UP(登録しよう)

メッセージ2:SIGN UP NOW(今すぐ登録しよう)

メッセージ3:JOIN US NOW(今すぐ参加しよう)

メッセージ4:LEARN MORE「もっと知ってみよう」

選挙チーム内で議論が重ねられ、多数決の結果、「画像Aとメッセージ1の組み合わせ」が一番効果的だろうという結論に達した。普通これで「はい、おしまい」となるだろう。トップ(権力者)が独断で決めたわけではない。何が問題だと言うのか。

私が考える問題とは、これは「チームメンバーの主観」による結論である、というものである。いかに議論したとはいえ、これは各メンバーが主観を披露したにすぎない。いろいろな価値観を持った人がいるのだから、メンバー構成が異なれば異なった結論が出る。いかにチームメンバーがその筋の専門家であったとしても、データに基づいた論拠を提示できなければ、説得力がない。

データに基づいた論拠は、統計リテラシーが無ければ提示できない。ここでABテスト(=RCT)が登場する。

グーグルから引き抜いたシローカーが行ったABテストとは、どのようなものだったか?

2007年のある期間中、約31万人がオバマ候補のウェブサイトを訪れた。選挙チームは、この31万人の一人一人に対し、24通りのデザイン案の中からランダムに1つのデザインだけを選び表示した

31万人が24通りのグループに均等に振り分けられたので、それぞれのグループには13,000人ほどが振り分けられたことになる。

実験終了後、選挙チームは各グループにおける「メールアドレス登録率」を計算し、登録率が最も高かったデザインを最適なデザインと特定し、以後の選挙運動で用いた。

 

RCTの鉄則

伊藤は、以下RCT(Randomized Controlled Trial)の鉄則として3つ挙げている。

鉄則1:適切なグループ分けをする(介入グループと比較グループ)

実験実施者が答えたい問いに答えられるよう、適切なグループ分けをすること。

まず、比較グループを定義する。比較グループとは、比較の出発点となるグループを指す。…オバマ選挙チームの例では、「選挙チームが最適と考えた画面と比較して、他の画面はどれだけ効果的なのか?」ということを調べたかったため「画面Aとメッセージ1の組み合わせ」を比較グループと位置付けた。

次に、介入グループを作る。オバマ選挙チームの例では、「画面Aとメッセージ1の組み合わせ」以外に23通りの組み合わせがあったため、比較グループに加えて23通りの介入グループが作られた。

比較グループの定義が重要である。何を調べたいのか。「人流抑制80%と比較して、人流抑制50%は、感染者減にどれほど効果的か?」などという問いがたてられたとして、その問い自体がほとんどナンセンスではなかろうか。

ABテストというから、介入グループは1つのように思うが、オバマ選挙チームの例では、23通りの介入グループが作られた。

鉄則2:グループ分けは必ずランダム(無作為)に行う

例えば、グループ分けを居住している都市で行った場合(シカゴとニューヨーク)、…シカゴ住民[比較グループ]にデザイン1[ex.画面A&メッセージ1]を示し、ニューヨーク住民[介入グループ]にデザイン2[ex.画面B&メッセージ1]を示した場合、「この2つのグループは、デザイン1とデザイン2を見たという違い以外にも、グループ間で別の相違点(V)があったかもしれない」可能性を排除できない。

オバマ候補はシカゴ地盤なので、デザイン1の「メールアドレス登録率」が高かったとしても、それはデザイン1自体の効果ではなく、単にシカゴ在住の人が「比較グループ」に入ったことが本当の要因かもしれない。

相違点(V)については、COVID-19:因果関係に迫る思考法(1)(2021/8/10)を参照。

では、ランダムにグループ分けをした場合、どうなるか?

ランダム(無作為)とは、くじ引きと同じである。くじ引きの結果、すべての人が24分の1の確率で、どこかのグループに入る。…シカゴに住む人は、24分の1の確率で、どこかのグループに入る。その結果、24の各グループにほぼ同数のシカゴ在住者が入る。よって、「シカゴ在住者はオバマ候補を支持しやすい」という効果が仮にあったとしても、その影響は比較グループと介入グループに対して等しくなる。(p.93)

RCTの強みは、以上の議論が「シカゴ在住」という例だけではなく、どんな要素についても言えることである。所得、教育水準、居住地域、家族構成など、どのような要素も、各グループですべて平均的に同等になる。そのため、グループ間で実験結果に差異が診られた場合、その要因は実験実施者が行った介入によるものだと断言できる。

グループ分けしてデータ分析がなされていたとしても、グループ分けがランダムに行われているかどうかは、必ずチェックしなければならないし、分析者はグループ分けをランダムに行ったことを明示しなければならない。

鉄則3:各グループに十分なサンプル数を充てる

あるグループに振り分けられた人数が10人だったとすると、ある1人が何らかの偶発的な理由で「登録する」という行為をした場合の平均登録率は、この偶発的な理由によって10%も上がってしまう。これが1万人だったとすると、ある1人が何らかの偶発的な理由で「登録する」という行為をした場合の平均登録率は、この偶発的な理由によって0.01%しか上がらない。つまりサンプル数が大きいほど、偶発的な理由(誤差)によって、平均値が大きく変化してしまう可能性は小さくなる。

サンプル数が少ないと、グループ間で差があったとしても、その差が偶発的な理由によるものなのか、それとも統計的に信頼してよい差なのか、という判断ができなくなる。このことを、統計用語では、「統計的に有意な差であると言えない状況」と言う。また「サンプル数が大きいほど、平均値計算の際の標準誤差が小さくなり、計算された平均値の信頼性が大きくなる」と言う。

このあたりは統計学の基礎中の基礎であり、サンプル数のチェックも重要である。

サンプル数に関しては、「最適なサンプル数はどの位なのか」が計算できなければならない。(数式を必要とするため、本書での解説はない)

サンプル数に関しては、次の問題がある。

多くの場合、RCTを設計する実験設計者は「サンプル数」をなおざりにしてしまう。その理由の1つは、実施者はできるだけ色々な介入を試してみたい、という欲求に駆られるためである。ところが全体のサンプルが限られている場合、介入グループ数を増やすほどグループ毎のサンプル数が少なくなり、前記の問題が発生する。

この問題については、後で説明があるようだ。

オバマ陣営の実験結果がどうであったかを見ようと思っていたのだが、長くなりすぎたので、次回にお預けになってしまった。

*1:2008年の大統領選挙時の話であり、その後のIT活用の変化はここでの話題ではない。