「データを疑う」技術を身に付けよう!


この記事の所要時間: 230秒 〜 330秒程度(1491文字)


中小企業診断士の佐々木孝です。
 
TechCrunchStatusPeopleというサイトが紹介されていました。Twitterのフォロワーのうち、「にせのフォロワーや不活のフォロワーをパーセンテージで教えてくれる」サービスです。「Connect to Twitter」を押して連携アプリを認証すれば、自分のアカウントや他人のアカウントについてにせ(Fake)フォロワー、不活(Inactive)フォロワーの比率を知ることができます。アメリカではにせフォロワーを購入してTwitterアカウントを過大評価させる(「フォロワーが多いと人気者だと思われる」)ことが問題になっていて、その流れで生まれたサイトのようです。
 

photo credit : mallix via photo pin cc

 


真の実態を知りたいなら「データを疑う」


さて、何らかのデータを知ったとき、そのデータがどのくらい真実をあらわしているデータなのかを見極める必要があります。誤ったデータからの判断は危険を伴うからです。
 
上記の例で言えば、フォロワー数=自分のツイートを見ている人数という単純な置換は間違いということになります。にせと不活を抜かなければ実際に見ている人数はわかりません。もちろん、実在していて日々Twitterを活用しているユーザーでもすべてのツイートを追っているとは限らないので、実際にツイートを見ている人数はもっとずっと少ないでしょう。
 
データから真の実態を知りたいときは、いろいろと想像を広げてさまざまな角度から「データを疑う」必要があるのです。
 


データを疑う技術


とは言え、「データを疑う」ことは簡単ではありません。スキルというよりはセンスの問題で、一朝一夕に身に付くような技術ではないのです。
 
それでも、以下の3点を確認することは役立つちます。
 
データの算出方法
データに付いた名前のラベルとその内容が一致していなかったり、いい加減な計算式で数値を算出していたり、無理な前提や絞り込みをしたデータだったりすることがあります。例えば、視聴率はテレビを見ている比率ではなくテレビをつけている比率です。交通事故死者数は「24時間以内」の死亡を条件にしているので、医療技術の向上で減少します。
 
このような算出方法のトリックに注意を払うことが必要です。
 
データの作成者と作成目的
誰がつくったデータなのかも重要です。先日来の脱原発デモでは、主催者発表と警視庁発表で参加人数が大きく違うことが話題になりましたが、要はそういうことです。算出方法が明示されていない場合は当然、明示されている場合でも、作成者の意図が反映されている可能性は否定できません。故意か過失かは別にして、人は自分に都合がいいようなデータをつくってしまうものです。
 
データを見る際、誰が何のためにつくったデータなのかをよく考えることは欠かせません。
 
直感に反してないか
極めて非科学的ですが、数値が自分の直感に反してないかを考えることも有効です。数値を見たときに「そんな馬鹿な!」と思ったら、確認してみた方がいいでしょう。データを細かく見ようとすると、この部分が疎かになり、誰も信じないようなデータを真に受けてしまうことがあるのです。近視眼になるのを防ぐために、直感は役立ちます。
 
データを疑う癖をつけることで、データを疑う技術は向上します。
少しずつでも、データを疑う習慣を身に付けてはいかがでしょうか。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.