ビッグ・データ活用の時代

　「クラウド」に並んで最近よく耳にするバズワード？が「ビッグデータ」である。文字通りならば大量のデジタルデータということなのだが、それだけの意味ではないようだ。少し勝手な解釈を加えてみよう。

米政府、ビッグ・データ活用に2億ドル超投じる(COMPUTERWORLD.jp)

　「デジタル化」が叫ばれるようになって、まず大きな問題は既存のアナログデータの形で保存されている膨大なデータをいかにデジタルデータに変換するかということだった。データベース化しかりである。まだ世の中全体の過去のデータのデジタル化がすべて完了したとは思えないが、少なくとも現在のシステムを運用するのに支障がないだけのデジタルデータは整っているとみてよいだろう。

　問題は新たに発生するデジタルデータや、データが詳細化、複雑化することにより増大したデータである。そしてそれは１度蓄積された静的データばかりでなく、オンラインデータのようにネットで接続された至る地点から日々発生したものを収拾し、時間内のうちに処理を完了して、再び結果を共有、分散できるようなものでなければならない。すなわち動的な生きた大容量のデータである。保存しておき検索できればよいというだけものでもない。ハードやソフトの性能は上がってはいるものの、規模が拡大しているために１台のサーバーでこなあせるものではない。

　そこに必然的に必要になるのは、クラスターでありクラウドであるということになる。ビッグデータは本質的にこれらの基盤の元に活用できるものということになる。逆に見ればクラウドが可能になったことによって、初めて処理可能なビッグデータの世界が拓けてきたともいえる。その意味での最初のビッグデータの処理といえるのは、世界中のWebページのリンクデータから順位付けを行ったGoogleのPageRankではなかっただろうか。