miniレクチャー

miniレクチャー

データサイエンス

ビッグデータって? ~ビッグデータ分析は宝さがし~

ビッグ―データはでかいだけではない

ビッグデータとは、「市販のデータベースやデータ処理ソフトで処理することが困難なほど大きなデータ」のことです。「大きい」とは、データサイズの意味でいえば、調査対象の数と調査項目の数が莫大というころです。さらに、その種類の多さやデータが蓄積されていく速度の速さまでが桁違いのデータのことです。SNSデータを想像してください。書き込まれる量は、日々、いや秒単位でぐんぐん増えていきます。レジで「ピッ」と読み取られるバーコード、全国のお店を考えると、とんでもない量の購入商品の情報が蓄えられていきます。他にも、機械の動作をモニターしているセンサーから得られる情報もすさまじい勢いで記録されていきます。こういったデータ蓄積の背景には、ICTの発達・浸透があります。意図する・しないにかかわらず、どんどんビッグデータが生成・収集・蓄積されているわけです。

このビッグデータ、すごい量だなぁ、扱い大変だなぁ、と、ただ、蓄積されるに任せていてはもったいない限りです。大量のデータを観察すると、大きな動きをとらえたり、逆に、その動きの中に別の流行り始めが見えたりするかもしれません。そう、これまで見えていなかった傾向がとらえられるはずです。一人ひとりの意見を聴取するのは大変ですが、SNSからキーワードを取り出してみると、世間の意見のトレンドが見えてくるでしょう。いま売れている商品やその陰に隠れて売れ始めている商品も見えるかもしれません。機械のくせもとらえられるかも。こんな貴重なデータが(ある意味勝手に)すぐに手に入るわけですから、ビッグデータを利用しない手はありません。

ただ、ここで問題になるのは、その「大きさ」ゆえに、無駄なデータ(ほしい情報以外のデータ)も勝手に蓄えられてきますので、それらに隠されてしまったり、処理時間や処理方法の限界に邪魔されたりして、大切な情報を見逃すことがあります。ここを乗り越え、ニーズに即したサービスの提供や業務効率化、異変の察知や新産業の創出などへの可能性を広げていくことが、ビッグデータ活用のポイントです。そして、膨大な情報の山から宝物を探し出すこと、ここに、データサイエンスの使命があるんですね。

検索ワードでインフルエンザ流行が見える

1日に検索数が55億を超えるGoogle(2016年推計)。この検索ワードの動きは、そのときの流行とリンクしていると考えられます。つまり、熱が出た、咳がひどい、といった症状が出始めると、その対処法や病院を検索し始める、すなわち、膨大な検索ワードの中で、風邪やインフルエンザに関連するワードの検索数が上がり始めるわけです。そう、「流行」が見える、ということです。そこで、Googleの研究チームは、検索ワードの観察で流行をとらえられるはずと、インフルエンザについて、数億通りの「数式モデル」に、さまざまな検索ワードをあてはめ、実患者数(流行)と高い相関のある45ワードを見つけ出しました(Googleインフルトレンド)。これまで、公的機関に情報が集約されて初めてわかった流行が、45ワードの観察で、それより1、2週間早く(ある意味、リアルタイムで)流行を把握できるようになったわけです。

間違いや限界も指摘されていますが、ビッグデータ活用の象徴的な例といえます。
このページのトップへ