浮動点から世界を見つめる

「井蛙」には以って海を語るべからず、「夏虫」には以て冰を語るべからず、「曲士」には以て道を語るべからず

パネルデータ分析

伊藤公一朗『データ分析の力 因果関係に迫る思考法』(10)

今回は、第5章 「複数期間のデータ」を生かすパネルデータ分析(p.178~)である。

パネルデータとは、次のようなデータである。

パネルデータとは同一の対象を継続的に観察し記録したデータのことを指す。これは例えば,複数の個人に家計簿を継続して記録してもらい、それを集計したデータであるとか、上場企業が企業業務内容を有価証券報告書として毎年, 財務省に提出するデータを同一企業ごとにまとめたデータであるとか、あるいは多数の同一の労働者の勤務情報や賃金情報を毎月記録したデータなどのことをパネルデータという。(北村*1

このようなパネルデータは、政府や企業経営の政策や施策に利用される(利用することができる)。

パネルデータ分析は、RCT[Randomized Controlled Trial:ランダム化比較試験]が実施できない場合に用いられる自然実験手法の一つである。例えば、政府が何らかの政策を行った際、もしくは企業が何らかの施策を行った際、その介入に影響を受けたグループと影響を受けなかったグループがいたとする。(p.182)

ここで、本書「パネルデータ分析の考え方」(図表5-2)を簡略化して掲載しよう。

f:id:shoyo3:20220408200807j:plain

伊藤は、次のような例をあげている。

(A) 外国人労働者所得税を、年間所得が1200万円を超える場合は引き下げるが、1200万円以下は引き下げず現行のままとするという政策。(優秀な外国人を国内に呼び込む)

(B) 新たな広告を、特定の都道府県だけ出すが、他の都道府県では出さないという施策。(広告の効果を分析する)

 

図の横軸は時間軸である。1,2,…は、第1期、第2期、…である。縦軸は測定値である。数字は適当に解釈すればよい。

「介入開始」の縦線は、政策、施策を実施時期である。

以下、(B)の例で言えば、T(茶線)は「特定の都道府県」であり、C(青線)は「他の都道府県」である。介入開始は、特定の都道府県に新たな広告を出した時点である。

こういった状況では、RCTのようにデータ分析者が実験を行ったわけではないにせよ、介入グループ比較グループが自然に形成された形になる。更に、この2つのグループに対して、介入が導入された前後のデータがあれば、かなり説得力のある因果関係分析ができるのではないか、というのがパネルデータ分析の基本的考え方である。

T(茶線)は介入グループの結果の平均値、C(青線)は比較グループの結果の平均値である。

図において、「介入効果」はどのように計算することができるか?

パネルデータ分析では、「介入開始後のTとCの差」から、「介入開始前のTとCの差(介入開始以前から存在した2つのグループの差」を差し引くことで介入効果を求める。

言葉だけで理解しようとすると難しそうだが、図を見れば一目瞭然である。介入開始後のT(茶線)とD(茶色の点線)の差が介入効果である。

 

平行トレンドの仮定

パネルデータ分析では、次の仮定が必要である。

平行トレンドの仮定…もしも介入が起こらなかった場合、介入グループの平均的結果(T)と比較グループの平均的結果(C)は平行に推移する。

「平行トレンド」という言葉は覚えておきたい。

図の点線(D)で描いているのは、「介入が起こらなかった場合」という仮の世界の状況なので、現実にはデータとして観測不可能である(潜在的結果)。そのため、平行トレンドの仮定をデータを用いて立証することはできず、この仮定が成立するであろうという証拠をできる限り並べていくことである。

「平行トレンドの仮定はおそらく成り立つ」という議論を展開するために、データ分析者が行うべきこと

  1. 介入が起こる以前の期間のデータを集め、介入開始前に介入グループと比較グループの間で平行トレンドの仮定が成り立っているか調べること。(p.187)
  2. 介入開始以降の時期に介入グループだけに影響を与えた別の出来事が無かったのか、入念にチェックすること。

この説明で理解できるが、補足説明がある。

介入開始前にこの仮定が成り立っていたとしても、介入開始後に何かが起こり、仮定が崩れる可能性はある。しかし、介入開始前に平行トレンドの仮定が成立していることは、「それ以降もこの仮定は成立しているのではないか」という情報を与えてくれる。

介入開始後に何かが起こったかもしれないという可能性に目配りしておかなければならない。

2点目については、先の事例(B)について言うと、

アイスクリーム企業が新規広告と同時に東京だけで値下げキャンペーンを行ったとする。すると、平行トレンドの仮定は恐らく崩れる。何故なら、値下げの影響により、東京と大阪のアイスクリーム販売数の推移は平行にはならないためである。

ただし、「新規広告導入後に、日本中が猛暑に見舞われた場合」は、「2つのグループへの共通ショック」であり、平行トレンドの仮定は守られる。

 

まとめ

複数のグループに対し、複数期間のデータが入手できる場合、パネルデータ分析を利用できる可能性がある。

パネルデータ分析の鉄則

  1. 介入が起こった時期の前後のデータが、介入グループと比較グループの両方について入手できるか確認する。
  2. 「平行トレンドの仮定」が成り立つかどうかの検証を行う。
  3. 平行トレンドの仮定が成り立つ可能性が高いと判断できた場合、2つのグループの平均値の推移をグラフ化することで介入効果の測定を行う。

パネルデータ分析の強み

  1. 必要なデータの収集が可能であればRDデザインや集積分析以上に広範囲な状況に利用できる可能性が高い
  2. 図を用いて結果をビジュアルに示せることで、分析者以外にも透明性のある分析ができる。
  3. 介入グループに属するすべての主体に対して介入効果の分析が可能である。この点は、分析できる対象の範囲が狭いRDデザインや集積分析に比べて優れた点である。

パネルデータ分析の弱み

  1. 分析上の仮定は、成立するであろう根拠を示すことはできるが、立証はできず、この点はRCTに比べて大きな弱点と言える。
  2. RDデザインや集積分析における仮定に比べ「平行トレンドの仮定」は非常に厳しい仮定であり、実際には成り立たない状況も多い

次章は、第6章 実践編:データ分析をビジネスや政策形成に生かすためには? である。

*1:北村行伸「パネルデータの意義とその活用―なぜパネルデータが必要になったのか」参照。北村は、注で「より厳密には、パネルデータとは、クロスセクション・データを、各主体ごとに時系列方向に拡大したデータであると定義できる。 したがって、各国の同一時点でのマクロ金融変数のクロスカントリー・データを、時系列データを用いて拡張しても、パネルデータとして扱うことができる。 すなわち、パネルデータとは必ずしもミクロの経済主体について調査したデータに限定されるものではないということである」と述べている。この論文については、今後取り上げることがあるかもしれない。