タグ : 事実

データを「分類する」のは人間です


この記事の所要時間: 240秒 〜 340秒程度(1579文字)


中小企業診断士の佐々木孝です。
 
世の中にはさまざまな人たちがいます。100人いれば100通りの考え方があって当然です。しかし、100人が百人百様の考えを持つことを知っても、そこから何かを判断することは不可能です。そこで、人々や意見を何らかの基準で「分類する」ことが必要になります。
 


「分類する」とは細部を捨てること


ある事柄、例えば「東京スカイツリーに行きたい」に対して、アンケートで「そう思う」か「そう思わない」かを質問すれば、100人を2種類に分類することができます。「どちらとも言えない」を加えれば3種類、「ややそう思う」「あまりそう思わない」を加えれば5種類となり、少し細かく分類することが可能です。しかしそれでも、ある基準で分類すると細部を捨てることになるのは間違いありません。「予約さえ取れれば明日にでも行きたい」も「機会があったら一度行ってみたい」も一緒になってしまいます。百人百様の考えを2種類なり、3種類なり、5種類なりに、誰かがつくった基準で無理矢理わけているのです。データをつくる人間はもちろん、そのデータから何かを判断する人間も、「分類」されたデータは無限にある基準の中から主観的にどれかを選んだものだと自覚する必要があります。
 

photo credit : Pulpolux !!! via photo pin cc

photo credit : Pulpolux !!! via photo pin cc

 


赤とレンガ色は同じ色?


事前に基準をつくるのが難しい場合、アンケートで自由回答の質問をしたりしますが、不用意にこれをやると更なる困難を招くことになります。回答から傾向を掴むために、後から似たもの集めをすることになるのですが、この基準づくりが難しいのです。
 
以前、ある街のイメージを色でたとえてもらう質問を自由回答でしたことがあります。
回答には、赤、青、黄色、ピンクなど直接的(?)な色の名前のほか、レンガ色、夕焼けの色など少し情緒の入った色名も混じりました。これをどうまとめたらいいでしょうか。街のイメージカラーを知りたいだけなら、赤とレンガ色を括って「赤系統」とわけた方がいいでしょう。水色と青とスカイブルーも一緒です。でも、街への思い入れを知りたいなら、レンガ色や夕焼け色といった気持ちの入った回答は別にした方がいいことになります。自由回答にしても、「分類する」基準はどこかで決めなくてはならないのです。
 


年齢はどうわける?


分類に悩むことがないように思える数値データでも、どうやって階級をわけるかという問題があります。
 
例えば年齢です。もちろん、5歳刻みや10歳刻みにしておけば苦情は出ないのですが、それがベストなのかは別問題です。例えば、小学生(7歳〜12歳)、中学生(13歳〜15歳)、高校生(16歳〜18歳)等を特別に分類するのは一般的に行なわれています。しかし、アンケート全体の趣旨を考えて「団塊世代だけを切り取る分類があった方がいい」等の議論になると意見がわれます。どう「分類する」かは常に付きまとう難問です。
 


データを「分類する」のは人間です


もちろん、これらの分類方法に正解はありません。大切なのは、自分の考えを持って、その基準を選んだ理由を主張できることです。何らかの事実をデータに置き換えることが主観的に「分類する」ことだとわかっていないとこれができません。
 
数値化されたデータは客観的なもののように見えます。しかし、その影で誰かが分類をしているからこそハンドリングできるデータになるのです。このことを忘れないことがデータを扱うときには重要になります。

“データ”ってなんだろう?


この記事の所要時間: 30秒 〜 40秒程度(1764文字)


中小企業診断士の佐々木孝です。
 
データ活用について議論をしていると、だんだん話が噛み合わなくなることがあります。“データ”という言葉の意味が広く、人や文脈によって言葉の使い方が大きく違うことが原因です。
 
“データ”は佐々木が企業を支援する際のキーワードの一つです。この言葉を無自覚に使うことでバズワード(=定義があやしい流行語)のようにしてしまっては、お互いに不幸な結果を招く事態になり兼ねません。
 
そこで、“データ”が何を意味するか、改めて考えてみました。
どうやら、“データ”という言葉には3つの使い方があるようです。
 


データ=事実、数値、電子データ


まずオーソドックスに辞書に掲載されている語義を確認します。
 
 『広辞苑 第三版』(新村出編/岩波書店/1983年) 

立論・計算の基礎となる既知の或いは認容された事実・数値。資料。与件。「実験―」

 
 『新潮現代国語辞典 第二版』(山田俊雄ほか編/新潮社/2000年) 

①推論の基礎となる情報を含んでいる事実・数値。与件。資料。「実験―」②コンピュータによる情報処理などのために、記号化・数値化した資料。「―通信」

 
 『新明解国語辞典 第四版』(山田忠雄主幹/三省堂/1989年) 

①推論の基礎となる事実。②ある事柄に関・する(して集めた)個個の事実を、広義の記号〔=数字・文字・符号・音声など〕で表現したもの。〔最も狭い意味では、数値で表現したものを指すが、広義では、参考となる資料や記事のことを言う。また、電子計算機の分野では、計算機が処理できる対象すべてを指す。従って、プログラム自体もデータであるが、狭義では除外する〕「ーを・集める(示す・並べる):万全のーをそろえる:実験ー:数値ー:文字―:―処理」

 
いかがでしょう。
『新明解』の注釈がかなり詳細で理解を助けてくれます。
これを中心に整理すると、大きくわけて以下の3つの使い方が想定できそうです。

●事実
 推論の基礎となる事実
●数値
 事実を数値で表現したもの
●電子データ
 事実や数値をコンピュータ処理のため記号にしたもの

 
この違いこそがデータ活用についての思惑の齟齬を生み出しています。
 


“データ”という言葉の使いわけ


例えば、会社で何か新しい事業をはじめるときに「データにあたれ」と言った場合、それは「事実」と「数値」の両方をあらわすでしょう。ところが、同じ新事業について考えていても「データを分析しろ」といった場合には、その対象は「数値」と「電子データ」、特に今どきは「電子データ」を意味することが多いようです。
 
では、会社が行なったイベントの様子を「データに残す」という場合だったらどうでしょう。「電子データ」のみを示している可能性も考えられます。つまり、画像や動画ということです。そのままでは「数値」になっていないので、何らかの方法で加工しない限りデータ分析等の対象には成り得ません。
 
もちろん、イベントの様子を「数値」としてデータに残すこともできます。時間別の来場者数をカウントしたり、来場者の名簿をつくったりする方法です。同じ「データに残す」でもいろいろあるわけです。
 


データ活用の目的は「事実」に基づくこと


佐々木が「企業でデータを活用しよう」というとき、“データ”として考えているのは第一に「事実」です。それは「事実」に基づいて考えることが重要だと考えているからです。もちろん、それを扱いやすくするために「数値」化したり、分析をするために「電子データ」化したりしますが、それらは手段に過ぎません。
 
一方、多くの方がデータ活用というと「電子データ」を思い浮かべるようです。「電子データ」は便利ですし、今の世の中で増えているのはこの意味のデータなので当然ですが、そこに疑問を感じます。「電子データ」ではわからない「事実」もたくさんあるからです。
 
こうやって考えるてみると、佐々木はもう少し自覚的に自分が考える“データ”の意味をアピールした方がいいのでしょう。
 
「事実」から考えたい、そう考えています。