自然実験による経済学の革命

以下はあのAngrist and PischkeのJEP論文の超おおざっぱなまとめ。読みやすさを重視するため本文に足したり引いたりしているところが多々あるとお断りしておきます。

（追記：Regression discontinuity designの例を足しておきます。）

リーマー批判

80年代にAERに掲載されたエド・リーマーによる有名な実証経済学批判がある。彼の批判は、多くの実証的な結論がちょっと仮定を変えるだけでひっくり返ることに向けられていた。*1もっと下世話な言いかたをすれば、実証する学者が自分のほしい結論が出るまで仮定やモデルをいじくり続けるので得られた結果は当然不安定になるということだろう。

この問題は、経済学における実証が純粋な実験によるものではないということに端を発している。たとえば、最低賃金を上げたときの雇用への効果を測定したいとしてみよう。通常の科学的手続きからすれば、まず被験者をランダムに実験群と対照群にわけることを考えるのが普通だろう。ここでいえばそれは人々をランダムに最低賃金の異なるグループに割り振るということになる。もちろんこのような社会的実験を行うことはあまり現実的ではない。だから実証をする経済学者は、このような実験を行うかわりに出来合いのデータを使わなければならない。すると、たとえば州による最低賃金の違いと雇用の関係を調べるとかいうことになる。しかしそうすると最低賃金の雇用への影響は（少なくとも）次のような２つの理由により曖昧になる：（１）異なる州の間には最低賃金以外にもいろいろと（コントロールされていない）違いがある（Omitted variable bias)、（２）雇用の状況が逆に最低賃金に影響を与えているかもしれない（Reverse causality）。このような曖昧さは、実証する側に偽の相関を発見する（ふりをする）余地を与えてしまう。*2

実証の研究をより信頼できるものにするにはどうするべきだろうか？リーマーは、結果の安定性を論文のなかできちんと吟味することを提案した。具体的には、いろいろなモデルやサンプルのとり方を試してみて、出てきた結果をすべて報告するということだ。*3しかし、この提案は部分的にしか学会で受け入れられることはなかった。

リサーチデザイン革命

うれしいことに現在の実証研究の信頼性は30年前にくらべて著しく回復した。しかしそれはリーマーの提案が受け入れられたからではない。この革命の担い手はより洗練されたリサーチデザインである

この洗練されたリサーチデザインの中核にあるのは「自然実験」（Natural Experiment）のアイデアだ。*4ある効果を測定するのに理想的なのは純粋な社会実験だが、前にも述べたようにそのような実験を行うのは難しい。*5そこで現代のリサーチデザインを重視する研究者は、現実の中の歴史の偶然のようなものを利用する。厳密な意味での実験は不可能でも、なるべくそれに近いような状況をみつけてくるのだ。

ひとつ有名な（操作変数の）例を挙げてみよう。Angristには徴兵が長期的に収入に与える影響を調べた有名な研究がある（AER,1990）。単純に考えれば、収入を（いろいろな共変数を考慮に入れた上で）徴兵の時期と期間などに回帰すればそれでいいと思うかもしれない。しかしこれでは上で述べたようなバイアスを回避できない。なぜなら、収入を十分見込めないような人たちが率先して徴兵に志願する可能性があるからだ。この場合、徴兵の経験自体が賃金を下げているのではないとしても賃金の低さと徴兵の経験に相関が生まれてしまう。徴兵の賃金への真の影響を測るには、人々をランダムに徴兵しなくてはいけない。Angristはこの理想的な実験に近いような状況を見つけてきてうまく利用した。べトナム戦争の徴兵にはある時期くじが使われていたのだ。一年365日をランダムに引いてきて、その日が誕生日である人が徴兵されるというシステムだ。*6,*7この場合さすがに上で述べたようなバイアスが入り込む余地はないと考えられる。*8ちなみに推定の結果によると、徴兵された若者の１０数年後の収入はそうでない人に比べて平均して１５％低かったそうだ。*9

もうひとつ今度はRegression discontinuity design*10の例を紹介してみよう。学級のサイズの子供の教育へ与える影響を測ってみたいとしてみる。単純な（古い）アプローチでは、適当に関係のありそうな変数を放り込んで統計ソフトで回帰分析のキーを押すだけというということになる。しかし学級のサイズはいろいろな要因によって影響される - たとえば過疎地では生徒の数は少ない - からそのような方法で得られた結果は信用できない。Angrist and Lavy(QJE, 1999)は、あるイスラエルのデータに着目した。イスラエルでは一クラスあたりの生徒数が４０人を超えることができない。たとえば３９人の生徒は一クラスにいれられるが、たまたま４１人の生徒がいる場合２０人と２１人のクラスに分けられる。つまり人数がたまたまちょっと４０人を上回るか下回るかでクラスの大きさががくんと変わるので、小さいクラスに割り振られた生徒達と大きいクラスに割り振られた生徒たちはそれ以外の部分では統計的に似たような生徒たちであると考えることができる。AngristとLavyはこれをある種の実験と解釈するのだ。彼らの推定からはクラスが大きくなるとかなりの負の学習効果が生まれるということがわかったが、上のような素朴な回帰分析ではこれほどきれいな結果は出なかったかもしれない。

今ではリサーチデザイン革命は応用ミクロ経済学一般（労働、開発経済学など）を席捲したといえる。その一方、マクロ経済学と産業組織論にはいまだ十分に浸透していない。しかし最近はこれらの分野でリサーチデザインを活用した優れた論文が出てきている。将来的にはリサーチデザインを重視した研究が増えることが望まれる。

リサーチデザイン革命は行き過ぎたか？

最近、リサーチデザイン革命は行き過ぎだという声がよく聞かれる。この反革命的な反応は二つに分けられる。ひとつはExternal Validityの問題。つまり、自然実験（あるいは純粋の社会実験）で得られた結果が他の状況にそのまま適用できるかどうかは怪しい、という疑いである。まず一ついえるのは、これはあらゆる実証的な結論に対して向けられる一般的過ぎる疑念だということだ。それはさておくとしても、自然実験に基づく研究ではいくつかの重要な問題について同様の結果が繰り返し得られていることを忘れてはならない。さまざまな状況で追試をして同一の結果を確認することは、この問題へのもっとも望ましい対処の仕方である。

もうひとつよく口にされる不満は、うまい自然実験を見つけられるようなトピックに研究のバイアスがかかるので、本当に大事な問題から研究者の目がそらされてしまうという問題だ。しかしこの批判はまったく妥当しない。えてしてこの類の批判は、特定の実験における文脈の狭さを問題自体の非重要性とつなげてしまうことからくる勘違いである。非常に特殊な実験でもそれが対象とする問題は経済学的に重要なものであり、そのような小さな実験が蓄積されることからくる一般的な問題への洞察を過小評価するべきではない。*11

まとめ

経済学における実証研究の信頼性は近年著しく改善された。その主な理由は、研究者がリサーチ・デザインにより注意を払うようになったためである。

*1:Ehrlichによる死刑制度による殺人抑止の研究を思い出してほしい。

*2:純粋な実験では、（１）の問題はランダマイゼーションによって解消されるし（２）の可能性は定義上ありえない。

*3:その結果得られるものは、パラメーターの推定値よりも、パラメーターの「信頼区間」のようなものであろう。

*4:より一般的にはQuasi-experimental methodと呼ばれる。典型的な手法は、操作変数法、regression discontinuity design, そしてdifferences-in-differences designである。

*5:最近では実際に社会実験をするケースが増えてきているが。

*6:このくじ引きはテレビで放映された。

*7:正確にはまず日にちがくじによって順序付けされ、あとで必要な人数に対応するだけの誕生日が順に選ばれた。

*8:これは操作変数法の一種。操作変数に選ばれるのは説明変数（徴兵）と相関しているが、説明変数を通さずに被説明変数（収入）と相関していない変数である。ここではくじが操作変数の役割を果たしていると考えることができる。

*9:この結果のひとつの解釈としては、徴兵中に自分へ投資できなかったということが考えられる。

*10:日本語でなんていうか知らない......

*11:ここでも追試が大事な役割を果たしている。