SPECIAL 特集

確率が支配する世界に法則を求めて ―統計学の歴史は面白い 談 椿広計

(終)コンピュータシミュレーション時代の数理統計学

1960年代に量的予測から質的予測への転換

 第二次大戦後、1950年代以降、60年代にかけて、統計学に大きな変化が起こります。扱うデータが、量的データだけでなく、質的データも扱うようになってくるのです。たとえば、カール・ピアソン以来、データから関係法則を導き出す「回帰分析」というと、量的データから予測式をつくり、売り上げのような量を予測するというものが多かったのですが、質も予測するという考え方が出てきたのです。
 もともと、統計学の中には分割表と呼ばれるクロス集計分析のような質的データの分析はカール・ピアソンの時代からありました。むしろ、戦後問題になったのは質的情報の回帰分析のような話です。たとえば、致死量の分析、どれくらいの物質量に暴露されたらどれくらいの確率で生物が死ぬかなどという問題は、農薬・殺虫剤などの開発を巡って既に1930年代頃から問題となってきました。
 統計学的には、チェスター・ブリス(1899〜1979)が提唱した"Probit, Probability Unit(確率単位)"がその典型ですが、この集大成がデビッド・フィネイ(1917〜)が1947年に出版したプロビット分析のテキストだと思います。

正規分布で近似できない予測

 質的な予測は、生物の生死予測や製品の良品・不良品の予測のみならず、企業活動に関していえば、売り上げ予測ではなく、企業倒産予測といった分野で今日盛んに用いられるようにもなりました。基本的に、これらの予測は、どれくらい毒物を飲むと100人中何人が死ぬかという確率の予測になります。通常の回帰分析はデータの偶然変動が正規分布にしたがうと仮定しているのに対し、その種の仮定が不適切な現象の予測というニーズも多くあるのです。
 生死以外にも、事故や余震の件数など頻度を予測する問題もあります。あるいは、こういう病状にある人が、後、何日くらい生きられるかという余命の予測も、単純な回帰分析のように見えますが、その変動が正規分布で近似できるといった類のものではないのです。1940年代から1960年代は、これらさまざまな予測の方式がばらばらに提示されていたのですが、その統一的基礎理論も、70年代前半くらいまでにはできてくるのです。

「一般化線形モデル」による回帰予測理論の統一

 その統一理論は、(5)でふれましたフィッシャーの「最尤法」が中心概念です。最尤法が出るまでは、データから推定される関係式がもっともらしいかどうかを得るには(1)でふれましたガウスの「最小二乗法」、すなわちデータの変動を正規分布で近似する方法が全盛でした。コンピュータが使われる以前の計算能力では、最小二乗法か、せいぜいそれを少し発展させた方法(重み付最小二乗法)しかできなかったのです。1970年代くらいになって、フィッシャーが1920年くらいに考えた、数値的反復計算(尤度の最大化計算)に時間がかかる最尤法が、コンピュータによって実用段階になったのです。
 そして、今までとりあげてきた正規分布に代表されるような分布だけでなく、二項分布、ポアソン分布など「指数型分布族」と呼ばれる分布(頻度、比率など)にしたがう変数を予測する方法論として統一した「一般化線形モデル」の考え方が発展します。
 ジョン・ネルダー(1924〜2010)とロバート・ウェダーバーン(1947〜1975)の提唱に基づき、数理統計学が、ガウスの誤差論、すなわち正規分布に基づく最小二乗法の自然な拡張として、指数分布族に基づく最尤法を位置付け、「一般化線形モデル」という枠組みにまとまってくるのが、1972年くらいです。この最尤法の全盛は応用分野では続いています。

観測変数の背後の潜在変数

 量的予測から質的予測への拡張という統計学の潮流以外にも、もうひとつ触れておきたい大きな流れがあります。それは予測に使う変数に、観測されていない変数、「潜在変数」が重要な役割をしている可能性に注目したことです。たとえば、企業の売り上げのデータなどは、観測変数ですが、消費者の心理的な好みなどは、直接観測されるわけではなく、消費者のさまざまな反応から推定される潜在変数になります。
 しかし、この潜在変数が、消費者の購買行動という観測される現実に影響を与える可能性が高いのです。学生個々の試験成績は観測変数で、それらには高い相関が通常観測されます。この背後にたとえば「一般的な学力指数」とか「知能指数」なる潜在変数を想定して、それらの相関を説明しようとする方法は、「因子分析」と呼ばれ、カール・ピアソンの影響を受けたチャールズ・スピアマン(1863〜1945)が1904年に開発したもので、それ以来潜在変数が、いろいろな現象と関係しているという考えかたをもっとも重要視したのは計量心理学です。この潜在変数による影響分析が、1980年代以降、「構造方程式モデリング」あるいは「状態空間モデリング」などという呼び名で、さまざまな分野に展開されている状況です。

テューキーの「探索的データ解析」

 もうひとり、現代の統計学で忘れてはならないのはアメリカのプリンストン大学のジョン・テューキー(1915〜2000)です。彼は、現在でもさまざまな分野で使われている「高速フーリエ変換」(FFT)の発明者でも有名です。
 テューキーは、コンピュータを使ってデータを解析することを、1960年に予言しています。「フューチャー・オブ・データアナリシス」という論文で、「今までの、仮説検定は、モデルを考えて、与えられたデータが正しいか正しくないか判断するような裁判官のようなものだった。これからの統計学は、モデルを先に考えるのではなく、データを見て、どういう仮説が探索できるかを追求する刑事のような統計学をつくるべきだ。」と述べています。 それが「探索的データ解析」です。大量のデータを扱うには適した考え方です。これもコンピュータによって可能になりました。

統計ソフトウエアの提案

 また、テューキーは、兼務していたベル研究所に対して、可視化などデータ解析を支援するツール、統計のソフトウエアをつくることを提案します。彼の提案によって、現在のように、統計のソフトウエア、グラフィカルなものの支援を受けることが可能になる道がひらけたのです。特に、回帰分析結果の妥当性をグラフィカルにチェックする「回帰診断」と呼ばれる方法論は、単純な予測式導出や予測に資する変数の摘出に関心が限定されていた統計分析に、統計分析自体の不完全性をチェックし新たなモデルに進化させるという、データ解析のPDCAサイクルのようなものを確立させたものです。
 テューキーは独創的な人で、「ビット」、「ソフトウエア」、「ハードウエア」という用語をつくり、標本分布を表す棒グラフ(ヒストグラム)を深化させた、いわゆる「箱ひげ図」も考案するなど、さまざまな分野で貢献しました。テューキーの興したデータ解析学派は、統計の世界ではそれほど大きな勢力にはならなかったのではないかと思いますが、その思想は、情報学分野で1990年代に勃興したデータ・マイニングの考え方に引き継がれることになります。

大量なデータ処理に威力を発揮するコンピュータ

 現代の数理統計学のように、理論よりもむしろコンピュータ実験、コンピュータシミュレーション自身が統計的な推論の本質になるのは、サンプリングを繰り返す、ブラドレー・エフロン(1938〜)の「ブートストラッピング」などがでてきた80年代少し前くらいです。これに伴って伝統的な数理統計学は少し元気がなくなってしまったのではないかと危惧するところです。
(編集部注 ブートストラッピングについては、この特集の別の記事「統計学からデータサイエンスへ」(2)でも取り上げています)
 自分のデータがモデルにあっているかどうかを調べる適合度検定にしても、自分のモデルにあてはめたデータに問題があるかどうかを調べるデータ解析にしても、現代では、大量なデータを相手にしますから、膨大な計算量になり、コンピュータの発展があってはじめて可能になりました。正確に言えば、大量なデータに混在する多くの異質かつ複雑な構造を解明することにコンピュータは大きな力を発揮しました。

情報分析のための基礎数理科学としての数理統計

 今の社会では、災害などありとあらゆる問題が起きて、分析しなければならない大量で複雑なデータが発生しています。私たちには、データ数(n)の増大というよりは、データベース内の変数の数(p)の増大が深刻な問題として意識されています。しかも、変数間の構造が時空間で動的に変化することを考慮しなければならないなど、新たな統計学的な方法論、理論の開発も求められているのです。
 アドホックなその場限りのアイデアで統計的方法を改善できることはあるでしょう。しかし、その改善の背後には、わたしたちを取り巻く情報自体が保有している法則があり、その法則を超えて何かうまい方法ができることは決してないのです。
 わたしのような統計の応用の人間は、日常的には既存の分析技法のリストや統計ソフトウエアの助けで仕事をしています。しかし、未知の分野にチャレンジしようとすると、独自の現象のモデリングが必要になります。このとき最終的なよりどころとなるのが、情報分析のための基礎数理科学である数理統計学なのです。それはコンピュータの能力がいかに向上しても変わらないのです。
 21世紀は、新時代の数理統計学の枠組みとしての「ベイズ理論」、すなわち、ワルド流の決定理論がコンピュータとアルゴリズムの発達で実用化した時代と考えられ、応用的にも大きな成果を上げつつある時代のように見えます。今後の展開については、若手中堅の統計数理研究者が深くかかわっており、大きな期待を感じているところです。
(編集部注 「ベイズ理論」は、この特集の別の記事「統計学からデータサイエンスへ」(2)で取り上げています) <2012.02>

(談 つばき ひろえ)

サイト案内

他の記事にはこちらからもどうぞ

サイトのご利用について