ビッグデータを定義する


この記事の所要時間: 620秒 〜 720秒程度(3421文字)


中小企業診断士の佐々木孝です。
 
アンケートとデータ活用を得意にしていると話すと、ビッグデータ、データマイニング、テキストマイニングなどについていろいろ聞かれることがあります。
 
相手によって言葉からイメージしている内容にかなり開きがあるのは仕方ないとして、自分でデータを扱ったことがある人間よりも大きな期待を持っているのが困ったところです。間違って過大な期待を持たないように「できることは限られる」と言えば言う程、相手をがっかりさせることになるのです。それどころか、役に立つ活用方法をうまく説明できない佐々木の知識や能力が足りないと思われているような感触さえあります。
 
自分がどう思われるかはさて置き、ビッグデータが捉え難い概念なのは間違いないでしょう。また一方で、捉え難いがために、データを扱ったことのない人を中心に却って大きな期待を集めているようにも思います。誤解されている面もあるでしょう。ビジネス関連のバズワードによくある現象とは言え、データ活用に関することだけに残念な動きです。
 
さて、「捉え難い」「誤解されている」と言っていてもはじまりません。
「ビッグデータとは何なのか」。この定義に挑戦してみることにします。
 

photo credit : Jemimus via photopin cc

 


ビッグデータはマーケティング用語?

以下にビッグデータの定義をいくつか集めてみました。
真正面から定義しているサイトは限られるため、それらしいところを抜き出してます。
 
 ウィキペディア日本語版 

ビッグデータ(英語: Big data)は、情報技術分野の用語としては、通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まりのこと。通常は、構造化データおよび非構造化データが含まれ、その多様性とサイズのため、格納、検索、共有、分析、可視化などには困難さを伴う。

 
 IT用語辞典 

従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。

多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。

 
 総務省  

ビッグデータとは何か。これについては、ビッグデータを「事業に役立つ知見を導出するためのデータ」とし、ビッグデータビジネスについて、「ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業」と目的的に定義している例16がある。ビッグデータは、どの程度のデータ規模かという量的側面だけでなく、どのようなデータから構成されるか、あるいはそのデータがどのように利用されるかという質的側面において、従来のシステムとは違いがあると考えられる。

 
 インテル 

ビッグデータとは 、従来よりも桁違いに大量かつ多 様、複雑で 、高速で生成されることを特徴とする膨大なデータセットです。大量 (Volume)、多様(Variety)、速度(Velocity)の3つの特徴は、ビッグデータの3つのVと呼ばれています。

 
 IBM 

2.5EB(エクサバイト)もの大量データが日々生成されています。しかも、既存データの90%はこの2年以内に生成されたものです。このようなデータは、ICタグなどのセンサー、ソーシャル・メディアに掲載された投稿、インターネット上に保存されたデジタル写真、ビデオ、オンライン購入の処理レコード、携帯電話のGPS信号など、さまざまなソースで生成されています。このようなデータを総じて“ビッグデータ”と呼んでいますが、主に4つの特徴があります。
・容量 (Volume)
・種類 (Variety)
・頻度・スピード(Velocity)
・正確さ(Veracity) ※4つの特徴の説明は省略

 
 
 NEC 

増え続ける会員情報、様々なセンサーから収集されるデータ、SNS上に書き込まれるテキストデータなど、企業内外に流通するデータは爆発的に増加しています。
技術革新により、様々な種類のデータ収集や大容量データ処理が可能となってきた今、事業環境の急速な変化への対応が求められる企業にとって、社内外にあふれる膨大なデータ「ビッグデータ」の活用が、企業競争力の向上に不可欠となっています。

 
 富士通 

「ビッグデータ」の用語定義は、まだ定まっていません。しかし、今までの「大量データ」とは、以下の違いがあると言われています。

・「量」の規模が違う
・「種類」の多様さが違う
・一括して処理する(バッチ処理)だけでなく、すぐに処理して使いたい
 (リアルタイム処理)という要件が違う

 
 日立製作所 

「ビッグデータとはインターネットの普及とIT技術の進化によって生まれた、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すもので、その特性は量、頻度(更新速度)、多様性(データの種類)によって表される。」

注意点
 ・大きなデータだからといってすべてが「ビッグデータ」ではない。
 ・どんな場合でもNoSQLで処理するべきではなく、RDBMSとNoSQL
  は使い分ける。
 ・ビッグデータとこれまでのシステムとの大きな違いは扱うデータの
  種類にある。

 
 オラクル 

ビッグデータという言葉が注目を集めていますが、それが注目されるに至った背景事情はシンプルなものです。これまで数十年間、企業はリレーショナル・データベースに格納されたトランザクショナル・データに基づいてビジネスの意思決定をおこなってきました。しかし、貴重な情報は、機密データだけでなく、あまり構造化されないデータの中にも眠っている可能性があります。たとえば、ブログ、ソーシャルメディア、電子メール、センサー、写真などのデータから、有用な情報を掘り起こせる可能性もあります。

 
いかがでしょう。
各サイト各様の書き方で、それぞれが「似て非なる」ことを言っているのはわかりますが、その違いまではなかなかわからないといったところでしょうか。
 
こうやって見ていくと、IT用語辞典の「明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語」という部分に真実味を感じます。ビッグデータは、概念ではなく「売り文句」だという解釈です。
 


ビッグデータは汎用技術か同床異夢か

さて、ここまでの引用を参考に、佐々木になりにビッグデータを定義すると以下のようになります。

 ビジネスに役立てるために(Why)
 今までなかったようなデータを(What)
 最先端の技術で分析すること(How)

 
だらだらと長い定義をしても意味が取れないので、Why、What、Howでまとめてみました。何ら引っ掛かりのない定義ですが、要はこんなところでしょう。まるで先日の記事コンピュータと水道、どちらが大事?で紹介した汎用技術(あらゆる人々によってあらゆる目的に使用され、個別のツールではなく、多種多様なツールや用途の土台となる技術)のようですが、ただの同床異夢のようにも映ります。
 
このどちらにも解釈できるところが、多くの期待を集める理由でしょう。
さて、本当はどちらなのか。次回から、Why、What、Howにそれぞれ注目して考察してみたいと思います。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.