ビッグデータは素材が命


この記事の所要時間: 250秒 〜 350秒程度(1707文字)


WIRED.jpでビッグデータを活用したおもしろい動画が紹介されていた。Foursquareの1年分のチェックインデータを地図にプロットしたもので、東京、ニューヨーク、ロンドンなど大都市の1日24時間の人の流れがわかるようになっている。
 
例えば、東京はこんな動画だ。

 
さて、不思議なことに、この動画を紹介する記事(Foursquareのチェックイン・データが描く、美しい都市マップ(動画))にビッグデータという言葉は登場しない。しかし、これはまぎれもなくビッグデータ活用の好事例と言えるだろう。なぜなら、何ら余計な手を加えず、上質のビッグデータを使って素材を活かす加工をしているからだ。
 

Photo credit : nan palmero / Foter / CC BY Photo credit : nan palmero / Foter / CC BY

 


Foursquareは位置情報をキーにしたソーシャルネットワーキングサービス


まず、ここでFoursquareについて、少し説明をしておこう。Foursquareは一言で説明するなら、位置情報をキーにしたソーシャルネットワーキングサービスだ。Foursquareのユーザーは、スマートフォンなどを使って今居る場所に「チェックイン」することができる。そして、その場所にメッセージを残すことで、情報を共有する。位置情報に基づいていろいろな人たちのメッセージが蓄積されることになり、この場所とメッセージの情報を使って、ソーシャルネットワークを広げる仕組みだ。
 
Foursquareのチェックイン情報を追うことで人の動きが観測できるため、冒頭に紹介したような動画の作成が可能になる。もちろん、Foursquareに登録している人たちだけのデータなので、性別や年齢や、リアルな生活の充実度などの偏りはあるだろう。実際に行った場所でも、チェックインしやすい場所としにくい場所があるかも知れない。それでも、Foursquareを使う人がたくさんいれば、人の動きの大枠が見えてきてくるのは間違いないように思う。
 


男女別で比較すれば・・・


こういう単純で上質なデータは、比較軸を導入することで更におもしろくなる。
 
例えば、このデータを性別でわけて左右に並べた動画にすれば、男女の行動の違いが見えてくるだろう。年齢や行動の目的別にわけても、何らかの気づきを得られる可能性がある。日付を天候や曜日で分類する加工をしても新発見ができそうだ。
 
素材となるデータがリッチなら、ちょっとした加工でさまざまなことがわかってくる。
 


ビッグデータは素材が命


更に分析を進めるとなると、例えば、場所ごとの関連度などを求めることになる。場所Aにチェックインした人を分母、その中で周辺の各場所にチェックした人数を分子とすれば、場所Aと各場所のつながりの強さがわかるという理屈だ。「場所Bは場所Cと較べて場所Aとの関連が強い」などのデータは案外簡単に出てくる。次の段階に進むなら、結びつきの強弱をただ較べるだけではなく、各場所間の関連度の数値を少し複雑な分析にかけることになるだろう。場所自体をグループ化して、ユーザーをそれぞれのグループに当てはめるのだ。新宿駅周辺でチェックインしたすべて人をいくつかのグループにわけて、「グループAはどのあたりで買物をして年齢はどのくらい」などと分析していく。
 
ただ、このような欲張った分析の結果は、分析者の腕の良し悪しにかかるところが大きい。腕に覚えのある人なら、どんなデータからももっともらしい結論を導くだろう。一方、経験不足の人が分析すれば、良いデータからでも大した結論は導けない。データの扱い方を複雑にすれば、もっともらしい結果を導けるかは素材と無関係になってくるのだ。
 
この点、単純な分析は手腕の持ち込みようがない。ごまかしようがなく、素材の良さをそのまま活かすしかないのだ。分析者の手腕次第の分析は、恣意的で危険な面も多い。やはり、データ活用は素材が命。元のデータの特徴を素直に示す分析が一番好ましいと思うのだが、いかがだろう。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.