miniレクチャー

miniレクチャー

データサイエンス

予測するにはどうする? ~データサイエンス定番、回帰分析~

2つの変量の関係を表す

その日の気温が高くなるとプールの入場者も増える・・・横軸を最高気温(x)、縦軸を入場者数(y)として、毎日、毎日の両者の関係をプロットしていくと、点が右上がりになっているのがわかります。最高気温が低いと入場者数が少なく、高いと多いという関係があるということです。この点の集まりに、ちょうどいいように直線を引きます。すると、y=ax+bという式が作れます。天気予報で明日の最高気温はわかりますから、その値をこの式のxに入れれば、明日の入場者数が予測できますね。

   
 
(全体に右上がりの傾向が見えます。つまり、最高気温が高いと入場者数が多いということですね。) 
 これは「回帰分析」というデータサイエンスでは大変よく使われる方法です。yをxの式で表すとともに、その式で予測も行います。
上の例は、最高気温だけですが、入場者数に影響する要因として、湿度、天気、曜日などもあるでしょう。そういったものを加味して、精度の高い関係式を作って、予測を行っていきます。

ワインの価格を予測する(専門家の評価を超えた?!)

フランス・ボルドー産のワインの価値(価格)を回帰分析によって予測した人がいます。ワイン好きの経済学者であるオーリー・アッシェンフェルターです。その式が、
 価格 = -12.15+0.00117×冬の降水量+0.06163×育成期の平均気温
  -0.00386×収穫期の降雨量+0.02385×熟成年数
です。ブドウの生育に影響する何年分ものデータから、式中の4つの要因が価値予測に有効であることを示したんですね。結果、専門家が醸造前のワインを試飲して出した予想よりも、1滴も飲まない回帰式の方が正確だったのです。(もちろん専門家の経験や勘は大切です。両方上手に活用すべきです。)

このページのトップへ