浮動点から世界を見つめる

井蛙には以って海を語るべからず、夏虫には以て冰を語るべからず、曲士には以て道を語るべからず

回帰不連続デザイン

伊藤公一朗『データ分析の力 因果関係に迫る思考法』(5)

前回まで、本書を「COVID-19」及び「読書ノート」のカテゴリーで取り上げてきたが、今回より「読書ノート」のみのカテゴリーとする。(読了後COVID-19に言及するかもしれない。*1

今回は、第3章 「境界線」を賢く使うRDデザイン である(p.116~130)

因果関係をデータ分析によって解き明かすための最良の方法は、ランダム化比較試験(Randomized Controlled Trial)であるが、RCTを実施できない場合はどうすればよいか?

RCTは、データ分析者が能動的に実験設計を考え、政策介入やビジネスでの介入といった介入を行い、データを収集して分析を行うという手法である」が、実際には「費用・労力・各機関の協力」が必要なので実施不可能なことが多い。そこで「まるで実験が起こったかのような状況を利用する」というコンセプトの「自然実験」という手法が使われている。

RCTと自然実験

RCTの強み…データ分析者が分析に最適なデザインを行える。

自然実験の強み…必ずしもRCTのような形で行われなかった政策やビジネスでの介入についても分析できる。

両者は代替的というよりは補完的な関係であり、どちらが適切かは、データ分析者が置かれた状況や答えたい問題の内容に依拠する。

伊藤は、自然実験の手法を3つ挙げている、第1の手法は「回帰不連続デザイン」である。(伊藤は、RDデザインRegression Discontinuity Design)と表記している)*2

 

回帰不連続デザイン

RDデザインにおけるキーワードは、不連続(Discontinuity)もしくは境界線(borderline)という概念である。

例として、日本の医療費問題が取り上げられている。ここでの医療費問題とは、「自己負担額を変化させると、医療サービスの利用頻度にどのような影響をもたらすのか?」、「自己負担額を変化させると、健康にどのような影響をもたらすのか?」という問題である。医療政策を立案・評価するには、このような問いを立てることが必要だろう。

この問題に対してRCTを行うこと、つまり医療サービスを受ける人をランダムに介入グループと比較グループに分け、介入グループだけ自己負担額を変更する、というような実験を国内全域で行うことは、予算面・労力面・そして倫理面から考えて容易ではない。

 

「境界線」に着目した分析手法

この問いに答えるため、重岡仁は、医療費自己負担制度における特異な点に着目した(2014)。特異な点というのは、70歳までは3割負担、70歳以上は1割負担になるという点である。

f:id:shoyo3:20210924185218j:plain

70歳以上75歳未満は、平成26年(2014年)4月以降に2割負担となったが、それ以前は1割負担だった。

重岡は、1984年から2008年までのデータを利用したので、その時点では、自己負担割合は70歳を境に3割から1割に減少していた。*3

 

月年齢(~歳~ヵ月)別に見た外来患者数は次の通りであった。

f:id:shoyo3:20210924185356j:plain

https://healthpolicyhealthecon.com/2015/05/16/regression_discontinuity_design/

グラフの滑らかな実線は、70歳の左側と右側のそれぞれのデータの動きを2次関数として推定したもの。

以下の2点が観測された。

  1. 65歳から72歳あたりまでのデータを見る限り、年齢が高いほど外来患者として医療サービスを利用する人が増えている。
  2. 70歳を境に大きな「ジャンプ」が見られる。(69歳11か月の人に比べて、70歳0ヵ月の外来患者数が格段に多い)

1.については、高齢になるほど健康上の問題が出るため病院に行く必要が出てくるという医学的な要因に起因していると思われる。しかし、2.については、70歳の誕生日を迎えたとたんに、突然健康状態が変化するということは考えにくいので、医学的な要因以外の何かが関連していると推測される。

グラフを見れば一目瞭然であり、ここで<70歳の「境界線」で患者数が非連続的に増えている要因は何か?> という問いが提出される。

ここで「医療費自己負担額以外の要素は、70歳の誕生日を境に急激に変化することはない」と仮定する。その場合、図で観測できた「ジャンプ」は、医療費自己負担額の変化でしか説明できない、と言える。つまり、境界線でのジャンプを観測することで、医療費の自己負担額(X)が医療サービス(Y)に与えた因果関係について測定することができる。これが「境界線」を賢く使うRDデザインの基本的考え方である。

この仮定の下で、「因果関係」を測定することができる!

重岡の事例では、

70歳を境にした医療サービス利用の伸び幅は約0.1(10%)である(図の縦軸参照)。「自己負担額が3割から1割に減少することで、外来患者数は約10%上昇した」という発見は、医療経済学や医療政策の世界では非常に重要な発見になった

RCTが不可能にもかかわらず、このように言えることは、問いを立て、現実を冷静に分析しようとする意志・力によるものだろう。

 

130万円の壁(配偶者の扶養に入ったままのほうが、手取りの減少にならない)

f:id:shoyo3:20210924185801j:plain

https://www.baitoru.com/contents/tax/2669.html

 

RDデザインで必要となる仮定

回帰不連続デザインの仮定

もしも境界線で自己負担額(X) が変化しない場合、医療サービス(Y)の平均値が境界線でジャンプすることはない。

では、この仮定が成り立つかどうか、データを用いて検証することは可能か?…実際には70歳を前後に自己負担額の変化が生じているので、仮定を満たす滑らかな曲線は、仮想的・潜在的な結果に過ぎず、実際には存在しない。潜在的結果を知ろうとしても、そのデータは観測不可能である。

つまり、回帰不連続デザイン(RDデザイン)の仮定は、「観測できない」データに依拠しており、この仮定が本当に正しいかどうかを、データによって立証することは不可能である。分析者としてできることは、「この仮定はおそらく成り立つだろう」という議論を展開していくことに限られる。

仮定が成り立つかどうかを検証できないとすれば、これは重大な欠陥ではないか。「この仮定はおそらく成り立つだろう」というだけでは説得力に欠けるだろう。

次の反論(疑問)に答えられるか。

(Q1)年齢と健康状態の関係を考えれば、仮に70歳の前後で自己負担額の変化が無かったとしても、70歳で患者数が増えるということはあり得る(のではないか? )

(Q2)年齢を重ねるごとに就業率や労働時間、収入などが変わる(のではないか?)

次のように応答(回答)される。

(A1) 確かに、年齢を経るごとに病気になる可能性は高くなるが、70歳の誕生日を境に「非連続的にジャンプする」可能性は低い。年齢と健康の関係が連続的な関係であり、この関係が70歳を境にジャンプをもたらすものではなければ、「回帰不連続デザイン」(RDデザイン)の仮定は守られる。

(A2)これらの変数も「年齢に従って連続的に変化していくもの」である限り、70歳時点での医療サービス利用の「ジャンプ」を説明することはできない。

このような反論(疑問)が想定されるので、次のような検証・確認が肝要である。

分析者が検証すべきことは、就業率や労働時間、収入など、懸念となる変数が70歳を境に「非連続的な変化」を見せていないか、グラフを作って確認することである。

(続く)

*1:ワクチンや治療薬にのみ、RCTを行えばよいというものではない。さまざまな政策の立案・評価にRCTを使えないかというのが私の問題意識である。

*2:RとDが何を意味するのか忘れそうなので、当分の間「回帰不連続デザイン」(RDデザイン)と表記する。

*3:税・社会保障における不連続な率の変更の問題については、別途とりあげる予定。