ビッグデータの「How」を疑おう!


この記事の所要時間: 330秒 〜 430秒程度(2005文字)


中小企業診断士の佐々木孝です。
 
引き続きビッグデータについてです。
今回は「How」について考えます。「今までなかったようなデータ」というインプットを、「ビジネスに役立つ情報というアウトプット」に変換する仕組みの話です。
 
とは言え、細かなデータ分析方法についてあれこれ言うつもりはありません。
「引き」の視点で見ることによって、一般の人でもわかるであろう問題点を指摘したいと思います。
 

photo credit : Articulate Matter via photopin cc

 


多変量解析の結果が信頼できるかわかりますか?


10,000人の中から100人を選び出して、身長と体重のデータを調べたとします。
 
この100人について平均を求めた場合、「誤差 ±◯%」と示せば、一般の人でもその数値の精度は何となく想像できるでしょう。
 
次に胸囲と胴囲を測り、体重を身長、胸囲、胴囲で説明できるように多変量解析の一種である重回帰分析を行なったとします。
100人について、

 体重 = 身長×a + 胸囲×b + 胴囲×c + 残差

の数式をつくり、残差の合計が最も少なくなるようなa、b、cを決めるのです。
 
重回帰分析はうまくいく場合とうまくいかない場合があります。
被説明変数(この場合は体重)を、説明変数(身長、胸囲、胴囲)で不足なく説明できるとは限らないからです。変数の選択が適当でなければ残差が多くなり、a、b、cの数値にあまり価値がなくなってしまうのです。うまくいったかどうかは、決定係数を見て評価します。
 
しかし、「決定係数 ◯.◯◯」と示されても、統計に詳しい人しかわかりません。「決定係数が△.△△以上なら信頼できる」等の注釈を付けることで説得力を補うことになります。ただ、この基準は人によって意見が違いますし、この基準を見て一般の人が「信頼できる」と思ってくれたとしても、その確信はリアリテイのないものでしょう。
 
故意か過失かは別にして(?)、信頼度の低い重回帰分析の結果が出まわることがあります。「信頼度が低い」の注釈付きならまだしも、それさえない場合もあるようです。アンケートなりデータ分析なりを行なって、「重回帰分析ができるような関連性はありませんでした」とはなかなか言えないため、相対的に信頼度の高い結果をアウトプットとする人がいるのです。結果を見る側が統計に詳しくない場合(普通は詳しくありません)、それを信じてしまう可能性が高く、間違った意思決定につながることもあり得るのです。
 
一般の人が多変量解析の結果が信頼できるか否かをわかる必要はないのですが、データ分析者を過剰に信用することは危険を伴います。
 


ブラックボックスは評価できない


ビッグデータの分析については、この現象が更に大きくなると心配しています。
分析の結果が信頼できるかの評価が、一般の人はもちろん、ちょっと統計の知識がある程度では困難だからです。分析のモデルをつくった側が「この数値を評価基準にするといい」と言っても、それが正しいかどうか見極められないのです。ブラックボックスを評価してるようなもので、「本当なのか」という感じです。
 
成功例を提示することで、その分析モデルの信頼を裏打ちする方法が取られていますが、これは無意味です。どんな適当な方法でも、何十件、何百件とやれば、偶然で成功例の1つや2つ現れるからです。成功例は「傍証」にはなるのですが、この場合、あまり価値がないと思われます。
 
ビッグデータの分析モデルは、その正しさをどう証明するかが肝になりそうです。
 


「疑う」ことが必要だ


以上、勝手なことを書きましたが、佐々木の理解力が足りないだけの可能性もあります。
 
ただし、多くの人が理解できないような分析の結果をそのまま信用していいかとう問題は意識しておいた方がいいでしょう。統計やデータ分析の専門家がつくったビッグデータの分析方法だからと言って、それが正しいとは限らないのです。こういう考え方は、前回の記事(ビッグデータの「What」を考える)でも登場したカテゴリー適用法、要因列挙法、メカニズム解明法の中で、最悪となるカテゴリー適用法となります。権威のある人たちがやっていることで、そのカテゴリーにあてはめて「正しい」としているのです。危険な「思考の近道」と言えるでしょう。
 
それでうまくいく事もあるので話は厄介なのですが、ビッグデータの「How」については、かなり疑った方がいいように思います。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.