「小保方さん応援ツイートが多い」は本当か?


この記事の所要時間: 420秒 〜 520秒程度(2437文字)


毎日新聞にツイッター分析:小保方氏会見への応援・支持、批判の2倍にという、俄に信じ難い記事があった。何も、小保方さんへの応援や支持が増えたことを驚いているのではない。こんなことが「分析ソフト」を使ったくらいでわかると考えている新聞社の不見識にびっくりしたのだ。
 
世の中には、ソフトウェアを使ったデータ分析に過度な期待をする向きがある。しかし、ソフトウェアとて魔法の道具ではない。「できること」と「できないこと」、更に「条件付きでできること」がある。そして、今回の記事での分析のような「条件付きでできること」を頭から信じると、その結果について大きな勘違いをすることになってしまう。
 
データ分析を行なう側に「騙してやろう」という悪意があるかは定かではない。しかし、個人も企業も自分のやっていることを大きく見せたいのは確か。多少の針小棒大、羊頭狗肉は付きものだ。このため、分析結果が本当に信じられるかどうか疑う習慣を持つことが、データの罠に引っ掛からないために極めて重要となる。ビジネス誌などでデータ分析が大きく取り上げられる今だからこそ、身に付けて損のないスキルのように思う。
 

Twitter

Photo credit : mkhmarketing / CC BY

 


支持/不支持/その他の分類は分析ソフトにできる?


記事によれば、分析の過程は以下の3ステップとなる。

 ①1万人のツイッター利用者を無作為抽出
 ②その中から小保方さんに関連するツイートを抽出
 ③ツイートを(1)応援・支持、(2)批判・不支持、(3)その他に分類

 
いかがだろう。分析の「流れ」としてはこれで正しいが、分析ソフトがこれらについて正しい「結果」を導けるかはいささか疑問が残る。
 
まず、①の無作為抽出について言えば、どんな条件を付けて抽出するのかがわからない。何も条件を付けなければ、外国語使用のアカウント、ほとんどツイートのないアカウント、機械仕掛けでつぶやくbotなども抽出してしまうからだ。もちろん、そこまで書いてないだけで確たる基準があるのだろうし、どういう抽出をしても支持/不支持/その他の比率にそこまで大きな変化があるとは考え難いが、こういうところを変えただけで分析結果に多少は影響が出る。焦点はややずれるものの、「小保方氏に関連するツイートをした利用者は全体の約12%」の部分に影響があるのは必至だろう。
 
②の関連ツイート抽出は、かなり難しい。「小保方」を含むツイートを抽出するのは当然として、例えば「オボちゃん」を含むツイートをどうするかという問題が出てくる。更に言えば、「STAP細胞」と「彼女」の両方を含むツイートをどうするかという問題もある。これを含めるとすれば、「彼女」の代わりに「あの人」や「研究者」を使っているツイートを含めるかが議論となる。人間が読めば関連の有る無しはすぐにわかるが、ソフトで判定させるためには「決め」が必要になる。
 
自分が感じる限り、彼女のことを「小保方さん」と書いているツイートより、「オボちゃん」と書いているツイートのほうが事態に批判的だ。どこまでを関連ツイートとするかで、支持/不支持/その他の比率は変わってくるだろう。このあたりは何らかのロジックをもって「自動化」されているのだろうが、そこに正解はなく、分析ソフトの判断が適切だとは言い切れない。
 
③の支持/不支持/その他の分類は分析ソフトでできるとして、その精度はかなり怪しい。Yahoo!のリアルタイム分析の「感情分析(β版)」などを見れば想像が付くだろう。文章全体の構造まで捉えて、内容を支持/不支持にわけるのはまだまだ至難の業。極端に言えば、否定語があれば不支持にするようなもので、その否定語の主語が小保方さんなのかマスコミなのかは必ずしもはっきりしない。分析の精度が日々進化しているのは確かだが、常識的に考えれば分析ソフトの支持/不支持の結果をそのまま受け入れるのは無理がある。
 
分析ソフトを使うことには、人間の主観が入らない素晴らしさがあるが、その精度に限界がある。データ分析に詳しくない人は、専門家がつくったソフトが高性能のコンピュータを使って分析した結果を鵜呑みにするかも知れないが、実は部分部分の精度について妥協をすることで成立している。分析結果にはここで書いたような「緩み」があり、どんな「決め」で分析するかによって結果は大きく違ってくる。
 


同じモデルで複数期間を分析すれば・・・


この記事を読んでいて不思議だったのは、比較対象とするデータがないことだ。STAP細胞の論文掲載が明らかになった日、捏造の疑惑が初めて大きく報道された日、理研が記者会見を行なった日のツイートについて同じモデルを使ってデータ分析すればいいのに、それがない。
 
上で書いたような「決め」があるため、分析モデルには何らかの癖がある。しかし、その癖は基本的にいつも同じだから、閉じたシステムとして分析結果の推移は信頼できる。同じモデルで別の日を解析して支持/不支持比率の増減を示せば、それはそれで解釈ができる。これがないのが極めて残念だ。
 


魔法使いはいない


データ分析に魔法使いはいない。そこにあるのは、地道な作業の積み重ねだ。普通の人が想像して常識的に「できない」と思うことは、多くの場合できない。
 
それを「できない」と言ってしまうと商売上がったりになってしまう人も多いので、「できる」と言い切る人も出てくるが、かなり怪しいと思った方が良いだろう。魔法使いがいないことをじゅうじゅう心得て、データ分析の結果を鵜呑みにしないことが必要だ。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.