読者です 読者をやめる 読者になる 読者になる

しっきーのブログ

ひろいこころで\(^o^)/

統計学が最強の学問である

 統計学が最強の学問らしい。なんか、漫画『喧嘩商売』の煽りで、「最強の格闘技とは何か?」って毎回言ってたのを思い出した。まあ、キャッチーなタイトルは重要だよね。筆者は西内啓さん。統計の人みたいな感じでメディアなどにもけっこう出ているらしい。東大医学部卒。ウィキペディアを見た限りでは看護学科らしいけど、ナイチンゲールという偉大な先輩がいるというのは素晴らしいことだと思います。

 

統計学が最強の学問である

統計学が最強の学問である

 

 

 原因不明の疫病を防止するための学問を「疫学」と呼ぶ。原因がわからないものに対して演繹的なアプローチをすることはできないが、問題がもし計量可能なものであれば、統計を取り、メカニズムの説明、理論の部分をすっとばして、何らかの対策を講じるための結果を出すことができる。

 疫学の父と呼ばれるジョン・スノウは、

  コレラで亡くなった人の家を訪れ、話を聞いたり付近の環境をよく観察する。

  同じような状況下でコレラにかかった人とかかっていない人の違いを比べる。

  仮設が得られたら大規模にデータを集め、コレラの発症/非発症と関連していると考えられる「違い」について、どの程度確からしいか検証する。

 といった手法でまだ原因のわかっていないコレラという大問題にアプローチし、「コレラ患者の排泄物が流しこまれていたテムズ川の下流の水道水を使う特定の会社の水を飲むべきではない」、という正しい結論を導き出した。彼は、コレラの原因になる病原体「コレラ菌」が存在し、それがコレラ患者の排泄物に含まれること、水中に生息するということはわかっていなかった。にも関わらず、統計学的なアプローチから正しい結論を導き出した。正しいというのは、この場合コレラの感染拡大を防ぐのに有効な政策を導き出したということである。

 筆者によると、統計学とは「どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる」もので、故に最強というわけだ。

 人間が考えだす「理論」は時に有害な場合があるというのは誰もが納得するだろう。統計学的なアプローチの場合、原因がわかっていない問題に対して、そういった有害な理論を介さず、「何をするべきか」という答えを迅速に得ることができる。筆者は統計学に親しみのない人に向かって、統計学の考え方、エッセンスをそれぞれの分野ごとに紹介していく。統計学の目覚ましい効果とともに、その限界もきちんと提示するし、分野ごとの統計家の考え方の違いなどわかりやすくマッピングされていると思う。

 大学に入ってから、僕はそんなに数理的な勉強していないのだが、それでも統計の分野はそれなりにやった。統計の重要性にも関わらず大学受験の数学の問題にないのは、単純に問題が作りにくいからなのだろうか。(ちなみに、センター試験の数学Bには統計の問題があって、かなり簡単だという説がある。実際僕も数Bは統計とプログラミングにしようかとちょっと考えたが、結局は数列とベクトルをやった。楽そうなものに飛びつくのはよくない)

 統計はITと結びつき、その影響力を爆発的に増した。コンピューターが無い時代だと、簡単なデータ分析をするにしても全部手で計算するという地獄のような苦役が統計家には課せられたのだが、コンピューターの普及、そしてRSPSSなどの優れた統計ソフトの登場によって、誰でも統計分析にアクセスできるようになった。もちろん、データが計測され開示されているというのも大きいだろう。計算する手段があっても、元になるデータを持っていなければ意味がない。幸い、世はビックデータの時代と呼ばれていて、大量のデータが今も計測され続けている。まあ、都合のいいデータがいつもとれるわけじゃないし、うまく計測するのが難しい領域はたくさんある。それを統計学的に捉えるために、様々な手法が考えだされた。

 たとえば、肥料Aと肥料Bがあり、どちらの肥料が効果的なのか調査する場合、単純にその効果を測定するのはまともな実験とはいえない。単純に「肥料の効果」と「小麦の収穫量」というファクターだけで考えるわけにはいかないからだ。他のファクターとして、土地の肥沃さ、水はけの良さ、日当たり、など、様々な要因が肥料と小麦の間に絡んでくる。そこで、ロナルド・A・フィッシャーは「ランダム化」という手法を考えだした。農地を細かい単位に分割し、ランダムに肥料をまき分けることによって、肥料Aの農地のグループと肥料Bの農地のグループの条件はほぼ同じになる。「ランダム化」して比較したい両グループの諸条件を平均的に揃える、というフィッシャーの考え方は統計学を一歩前に進めることになり、様々な分野で応用されている。

 まあ、ランダム化でも分析しにくい事例はたくさんあって、分野ごとに様々な方法が用いられている。本書ではそれぞれわかりやすく紹介しているので、興味があるなら手にとってみればいいと思う。

 もちろん、統計には限界もある。計測不可能なもの、宇宙ロケットの打ち上げなど、チャンスが数回しかなく、その時々で状況が変わってしまうものには統計学は使えない。その他に、データを計測する実験をするにあたっての倫理的な問題などもあるのだが、計量しにくいものに対してどうやれば正確で有意義なデータを引き出すことができるのかという統計学の試みはこれからもどんどん続いていく。

 技術の発展によって、これから計測できる分野は増えていくだろう。極端な話、例えばそれぞれ街角や駅など、そこを通った人の数を計測できる技術が発展し、そのデータがすべての人に提示されたとする。そういったデータを分析すれば、何か利益を得るような革新的な事業の方法を導き出せるかもしれない。実際にありえない話ではいし、そういった宝探しに参加できるようになるためにも、統計は勉強しておくといいかもしれない。

 僕が統計学について思うことは、結局のところ問題を設定する部分は人間が負わなければならないということだ。さらに、統計分析をするには、無限にある変数の中から特定の変数を作為的に持ってこなければならない。抽出するデータを選びとるにはある程度の「理論」は必要なので、分析から結果を出す以前の段階で理論が入り込む余地は十分にあるだろう。

 疫学から統計が生まれたように、医療系の分野で統計を使うのは特別に問題を設定する必要はない。目的が「患者の死亡率を下げる」みたいなことであれば、議論を挟まずにデータを分析してやるべきことを見つけ出せばいい。だがその方法論をすべての分野に適用していいわけではない。

 例えば本書ではタバコの例について言及されている。喫煙に発ガンのリスクがあることは統計的にほとんど間違いなく、「喫煙は日本において毎年7兆円以上の経済損失となっている」らしい。しかし、だからと言ってタバコを吸う人を減らせばいいという結論が正しいとは限らない。(ちなみに、僕はタバコが大嫌いで、歩きタバコとかをする屑どもを駆逐したいと思っています)嗜好品としてタバコを吸う自由や、これまでの文化、タバコ農家への影響などと言った視点は、「喫煙における健康に対する害」といって抽出したファクターには含まれていない。しかも毎年7兆円以上の経済損失と言うが、タバコの影響によってガンになった人の医療費がそれだけかかっても、タバコを吸わずとも他の病気になる人だっているだろう。そういう人達がかかる病気の医療費をそこから差し引かなければならないのだろうが、そんなものまず計測できない。また、ビジネスなどに応用した場合、「利益を上げる」ことを第一の目的とした統計分析が倫理的に大きく間違う可能性だって当然あるだろう。例えば人を依存させて利益を得るソーシャルゲームなんかがその例で、もっともプレイヤーがコンテンツに金を落としてしまうゲーム内ガチャの確率設定など、統計家は胸を張って最適な値を算出するのかもしれないが、僕は決して褒められたものではないと思う。

 ちなみに、統計学を否定するつもりはいっさいない。それが正当な手続きを踏んだものであるなら、どんどんデータを分析して因果関係を示していけばいいと思う。様々な分野で、そういった分析が積み重なっていけば大きな財産になるだろう。

 企業や行政などにおいて、何かを決定するには科学的なエビデンスが求められる。未知の問題に対して因果関係を示すことは基本的にはできないので、データの分析からエビデンスを導き出せる統計的なアプローチは説得力を持つ。そういう意味で統計学は「強い」と言えるだろう。だが、それは学問じゃなくてただのツールだ。