データ分析の不都合な真実


この記事の所要時間: 550秒 〜 650秒程度(3147文字)


データ分析の不都合な真実とは、この世に魔法使いは居ないということだ。
 
専門家が膨大な量のデータを最新の高性能なアプリケーションを使って新手法で分析したとしても、「わかること」と「わからないこと」がある。データ分析に詳しくない人は、「膨大」「最新」「高性能」「新手法」などのはったりに騙されてしまうかも知れないが、いくらデータを詳細に見てもわからないことはわからない。どこを探しても魔法使いや超能力者はおらず、せいぜい居るのは手品師だ。
 
いくら高度な分析をしたところで「わかること」は限られている。
難解な分析でもっともらしい結果をつくり出すことはできるが、そこでは分析者が手品の腕前を見せていることも多い。結果を出すために強引な仮定を置いたり、無理矢理つくった算出式をあてはめたり、分析結果を力尽くで解釈したり、かなり大胆な工夫をしているのだ。そして、この工夫を分析結果を磨き上げるための職人芸と捉えるか、恣意性の高い属人的な操作と捉えるかは、明解な結論がある類の議論ではない。
 
データ分析というと科学的、客観的なものと思われるかも知れないが、一部の例外を除いて実態はそうではない。ほとんどの分析者は、企業や業界や学会の中での立場を守るために、真実よりも適度に体裁が整ったキャッチーなアウトプットを求める。それを望む人が多いのも間違いないとは言え、いささか度が過ぎると人を騙しているのとあまり変わらないことになる。
 
さて、なぜこんな当たり前のことを書き出したかと言えば、あるサイトのアウトプットに極めて強い違和感を覚えたからだ。今回は、このサイトを一例にしてデータ分析の難しさについて説明しよう。
 

photo credit : Stéfan via photopin cc

photo credit : Stéfan via photopin cc

 


どのツイートがどの番組に対応しているかは判定可能?


今回、気になったのはみるぞうというサイトだ。
「盛り上がりが一目でわかるテレビ番組表」と称しており、現在放送中のテレビ番組名が①盛り上がり(4段階に色付け)、②実況タイムラインと共に表示される。色を見れば盛り上がっている番組がわかり、そのタイムラインを見ることで番組のどの部分が注目されているか共有できる仕掛けだ。
 
このサイトの前提は「ツイッターにおけるつぶやきの量を元に盛り上がり度を判定しています。」という一文から読み取ることができる。この「ツイッターのつぶやき量=盛り上がり度」という仮定には、あまり無理がないだろう。【テレビ番組が盛り上がる ⇒ それを誰かに伝えたいと思う ⇒ ツイッターのつぶやき量が増える】という流れは自然に感じられる。
 
問題は、どのツイートがどの番組に対応しているかの判定だ。
冷静に考えてみて欲しい。ツイッターのタイムラインを流れる無数のツイートを一つ一つどの番組に関連しているか人間が目視で見わけることはできない。もちろんコンピュータの力を借りるわけだが、コンピュータと言えども魔法使いではない。何らかのアルゴリズムに基づいて判定するだけだ。
 
一般的に考えれば、テレビ局名や番組名を検索してそれを含むツイートを番組に関するツイートと同定することになる。しかし、番組名は正式名称で書き込まれるとは限らない。フジテレビの平日お昼の人気番組の正式名称は「森田一義アワー 笑っていいとも!」だが、そんな書き方をする人はまず居ない。実際には、「笑っていいとも」「いいとも!」などと書かれる。それなら略称も検索対象にすれば良いだけのように思われるだろうが、話はそう簡単ではない。なぜなら、①登録する略称の量と質によって当該ツイート数が変わる、②略称が一般的な言葉の場合(例えば「めざまし」)に当該ツイート数が水増しされるからだ。
 
この場合、取り得る対処方法は次の3つになる。
 A.正式名称と略称を検索対象にする
 B.正式名称だけを検索対象にする
 C.番組名を使った検索をすべて諦める
 
当然ながら、どれも不完全な方法だ。
A.を採用すれば広くツイートを収集できるが、一般的な言葉による水増しが番組間の比較を困難にする。B.にすれば略称の書き込みを対象外にすることになり、実際のつぶやき量との乖離が大きくなるだろう。元々の番組名が短く単純なもののツイートが多く見える危険もある。C.は番組名を使った書き込みを一切無視するのだから問題外だ。番組の盛り上がりを測定しているとは言えない。
 
要はいずれの方法も帯に短し襷に長しなのだが、企業等でデータ分析をする場合の多くは、「じゃあ、この話はなかったことに」とならない。多少無理をしてでも、何らかの工夫を見出して前に進むことになる。
 
もちろん魔法使いは居ないのでかなり怪しい論理を積み上げることになるが、アウトプットを見る人の多くはそこまで気にしない/わからないことを頼りにしている。その結果、データ分析者が魔法使いのふりをした手品師のように振る舞う構図になる。故意か過失かは別にして、あまり褒められた状態ではない。
 


ハッシュタグを使って検索しても・・・


みるぞうの場合、番組についての投稿を探すのにツイッターのハッシュタグを使っている(ハッシュタグについて詳しく知りたい人は「#中小企業」だって使って欲しい!を参照のこと)。
 
先ほど取り上げた「森田一義アワー 笑っていいとも!」を例にすれば、放送時間中に「#iitomo」「#いいとも」「#fujitv」のタグが付いている投稿が多いと盛り上がっていることになる。きっと、これらのタグを使わない投稿がたくさんあるし、放送時間中に「#fujitv」を使って番組とまったく関係ないフジテレビの話題を書いている人も多い。つまり、ハッシュタグを使った検索方法では、①番組のことを書いていながらヒットしないつぶやき、②番組以外のことを書いていながらヒットしてしまうつぶやきが多数あるのだ。しかし、そこまで考えていたら何もアウトプットできなくなってしまうので、「取り敢えずこれで良い」と割り切ったのだろう。
 
もちろん割り切りは必要だ。何らかの割り切りなしでは統計は成り立たない。そして、それを注釈付きで情報を提供する分には間違いではない。それを情報の受け取り手が誤解したとしても、何らかの言い訳はできるだろう。しかし、これが盛り上がり度の実態をあらわしていると言えば、それはまた別の問題になる。
 


ブラックボックスにご注意を!


こうやって書くとまるでみるぞうを批判しているようだが、そうではない。
みるぞうはある意味で良心的なサイトだ。明確な説明はないものの、どんな仕組みか想像できる。どんな割り切りをしたのかがわかり易いので、これを誤解する人は限られるだろう。
 
一方で、難しい理屈をこねる最新のサイトやアプリケーションは、この割り切りの部分がブラックボックスになっている場合も多い。たとえ書いてあっても、意味不明なカタカナ語や専門用語が並んでいて常人では理解できないようになっている。何か凄そうだけど、何が凄いかよくわからないパターンだ。
 
データ分析にはさまざまな不都合な真実が含まれている。
これらを明記せずに、体裁の良いことばかり書いてあるブラックボックスには充分な注意をした方がいい。この世のどこにも魔法使いなど居ないのだから。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.