東京ツイートマップとデータアーティスト


この記事の所要時間: 210秒 〜 310秒程度(1294文字)

 photo by Twitter Blog photo by Twitter Blog

 
これは、いろいろな人たちがツイッターでつぶやいた場所をプロットした地図だ。ジオタグの位置情報を使用しており、東京ツイートマップとでも名付けたらいいだろう。山手線をはじめとした鉄道路線が読み取れ、新宿や渋谷など大きな街はかなりはっきり明るくなる。対象データは「2009年以降のジオタグ付き全ツイート」とのこと。どれだけ大量のツイートをマッピングしたのかは想像もつかないが、ビッグデータなのは間違いない。(参考:ツイートされた位置をマッピングして浮かび上がる都市の形、東京など13画像|INTERNET Watch
 
そして、このビッグデータ活用は素晴らしい。
なぜなら、無駄な加工をしておらず、元データを忠実に表現しているからだ。
 


元データはメッセージの素材に過ぎない


なぜ加工していないデータにこだわるかと言えば、誰がやったかわからないデータ分析をあまり信用していないからだ。どんなデータでも、うまく加工をすれば見違えるように素晴らしいモノにできる。データから読み取れるメッセージを変えるのも簡単だ。データの改竄などしなくても、加工方法を工夫することでどうにでもなる。
 
どんなデータ分析でも、元データはメッセージの素材に過ぎない。
素材の良さを活かすやり方もあれば、悪い素材をテクニックでごまかすやり方もある。もちろん、テクニックはあった方がいいが、使い方を間違えるとおかしなことになる。データ分析から導き出されるメッセージに占める①元データの成分が減って、②分析テクニックの成分ばかりになってしまうのだ。このようなメッセージによって分析者や分析ソフトの優秀さは示せるかも知れないが、それがデータ分析として好ましいかは別の話だ。
 
データに基づいた客観的な分析を装ったレポートが、実はデータ分析者のテクニックで無理やり自分に都合のよい結論を導き出した代物だったりする例は後を欠かない。だからこそ、テクニックの入り込む余地が少ない生のデータに近い分析結果を好むのだ。
 


データサイエンティスト? データアーティスト?


最近、データサイエンティストという言葉をよく聞くようになった。
どうやらデータ分析の専門家のことをいうようだが、求められているのはデータを見るセンスのようだ。誰が分析を行なっても同じ結果を導き出せるような科学的なアプローチではなく、データからいかにリッチな分析結果を創造できるかが期待されている。
 
そして、この部分はサイエンス(科学)というよりもアート(職人技)の領域だ。
データサイエンティストというよりデータアーティストといった方がいいだろう。
 
それはそれでいいのだが、客観を気取った主観の押し付けには注意する必要がある。どこからどこまでがありのままの事実で、どこからがテクニックを使った結果なのか。そして、どこからが分析者のデータ解釈なのか。
 
これらを見わける自信がないのなら、無駄な加工がされたデータには注意した方がいいだろう。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.