データを「分類する」のは人間です


この記事の所要時間: 240秒 〜 340秒程度(1579文字)


中小企業診断士の佐々木孝です。
 
世の中にはさまざまな人たちがいます。100人いれば100通りの考え方があって当然です。しかし、100人が百人百様の考えを持つことを知っても、そこから何かを判断することは不可能です。そこで、人々や意見を何らかの基準で「分類する」ことが必要になります。
 


「分類する」とは細部を捨てること


ある事柄、例えば「東京スカイツリーに行きたい」に対して、アンケートで「そう思う」か「そう思わない」かを質問すれば、100人を2種類に分類することができます。「どちらとも言えない」を加えれば3種類、「ややそう思う」「あまりそう思わない」を加えれば5種類となり、少し細かく分類することが可能です。しかしそれでも、ある基準で分類すると細部を捨てることになるのは間違いありません。「予約さえ取れれば明日にでも行きたい」も「機会があったら一度行ってみたい」も一緒になってしまいます。百人百様の考えを2種類なり、3種類なり、5種類なりに、誰かがつくった基準で無理矢理わけているのです。データをつくる人間はもちろん、そのデータから何かを判断する人間も、「分類」されたデータは無限にある基準の中から主観的にどれかを選んだものだと自覚する必要があります。
 

photo credit : Pulpolux !!! via photo pin cc

photo credit : Pulpolux !!! via photo pin cc

 


赤とレンガ色は同じ色?


事前に基準をつくるのが難しい場合、アンケートで自由回答の質問をしたりしますが、不用意にこれをやると更なる困難を招くことになります。回答から傾向を掴むために、後から似たもの集めをすることになるのですが、この基準づくりが難しいのです。
 
以前、ある街のイメージを色でたとえてもらう質問を自由回答でしたことがあります。
回答には、赤、青、黄色、ピンクなど直接的(?)な色の名前のほか、レンガ色、夕焼けの色など少し情緒の入った色名も混じりました。これをどうまとめたらいいでしょうか。街のイメージカラーを知りたいだけなら、赤とレンガ色を括って「赤系統」とわけた方がいいでしょう。水色と青とスカイブルーも一緒です。でも、街への思い入れを知りたいなら、レンガ色や夕焼け色といった気持ちの入った回答は別にした方がいいことになります。自由回答にしても、「分類する」基準はどこかで決めなくてはならないのです。
 


年齢はどうわける?


分類に悩むことがないように思える数値データでも、どうやって階級をわけるかという問題があります。
 
例えば年齢です。もちろん、5歳刻みや10歳刻みにしておけば苦情は出ないのですが、それがベストなのかは別問題です。例えば、小学生(7歳〜12歳)、中学生(13歳〜15歳)、高校生(16歳〜18歳)等を特別に分類するのは一般的に行なわれています。しかし、アンケート全体の趣旨を考えて「団塊世代だけを切り取る分類があった方がいい」等の議論になると意見がわれます。どう「分類する」かは常に付きまとう難問です。
 


データを「分類する」のは人間です


もちろん、これらの分類方法に正解はありません。大切なのは、自分の考えを持って、その基準を選んだ理由を主張できることです。何らかの事実をデータに置き換えることが主観的に「分類する」ことだとわかっていないとこれができません。
 
数値化されたデータは客観的なもののように見えます。しかし、その影で誰かが分類をしているからこそハンドリングできるデータになるのです。このことを忘れないことがデータを扱うときには重要になります。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.