タグ : ラベル

時には意味付けの弱いデータも・・・


この記事の所要時間: 20秒 〜 30秒程度(1227文字)


中小企業診断士の佐々木孝です。
 
『iPhone/iPad アプリのタイトルに最も使われている言葉は?』という楽しげな記事がインターネットコムに掲載されていました。65万を超えるアプリのタイトルを分析したもので、ランキング上位にはHD、Lite、Free、iPad、Proなどが入っています。
 
このような、一人一人、一社一社が個別に行なった作業の結果を比較的容易に分析できるのが、今の時代のおもしろいところです。Googleの検索単語ランキングやTwitterのトレンドワードなどが、その代表でしょう。
 
いろいろな事柄について、たくさんのデータが蓄積されているため、分析視点と分析技術さえ持っていれば、さまざまな分析が可能になるわけです。データ好きには堪らない時代ですね。
 


データ分析には説得力ある意味付けが必要


データを分析するときには、分析技術よりも分析視点が大切です。
結果をどのように活用できるか、自ら説得力ある意味付けをしなければ、誰もその分析結果に興味を示しません。分析視点をうまく使って、センスあるラベル付けをすることが求められます。
 
Googleの検索単語ランキングの意味を「多くの人が興味を持った単語」とするのは無理がないと思われるでしょう。しかし、よく考えると、人は興味を持った単語をすべて検索するわけではありません。「より強い興味を持った単語を検索する」、「知らない単語だった場合に検索する」、「いろいろな情報が出てきそうな単語だったら検索する」など、いくつもの可能性が考えられます。ここをうまく意味付けすることで、分析結果の価値が上昇するのです。
 
無理のない範囲でジューシーな意味付けをするのは容易ではありません。しかし、だからこそ人々の興味を惹き、説得力を持った意味付けができることにデータ分析者のセンスが役立ちます。
 


無理は禁物


冒頭に挙げた『iPhone/iPad アプリのタイトルに最も使われている言葉は?』は意味付けがされていません。多く使われている言葉を単に指摘しているだけにとどまっています。「(一般受けするために)これらの言葉を使った方がいい」とか、「(既存アプリと差別化するために)これらの言葉を使わない方がいい」などの展開はありません。勿体ないように思いますが、これはこれで一つの提示方法だと思います。
 
分析結果を価値あるものにするためにラベルを貼ることが求められます。そのため、無理をしてしまうことがあるのです。価値を過剰に解釈してしまい、説得力のないラベルを張ってしまうことになります。そんなことをするくらいなら、無理な意味付けをしないというスタンスもアリでしょう。
 
うまいラベルを貼ることは重要ですが、無理は禁物です。時には意味付けの弱いデータを野面で出せることこそが、責任あるデータ分析担当者に求められる能力なのです。

日本の子どもは貧困か? 〜指標の意味を考えよう!〜


この記事の所要時間: 250秒 〜 350秒程度(1700文字)


中小企業診断士の佐々木孝です。
 
昨日付の朝日新聞デジタルに子どもの貧困率、日本ワースト9位 先進35カ国中でという記事が掲載されました。「景気が悪い」「生活が苦しくなった」などと20年近く言い続けていても、「まだまだ日本は豊かだ」と思っている人が多いでしょうから、かなり刺激的なタイトルです。
 
しかし、記事をよく読んで少し調べてみると、この記事で何を言いたいのかがよくわからくなります。なぜなら、それは貧困率という指標が「貧困の程度をあらわしている」と素直に納得できないからです。その結果、日本の貧困率がワースト9位だと知っても、「だからどうしたの?」と思ってしまいます。
 

photo credit : eflon via photo pin cc

photo credit : eflon via photo pin cc

 
この記事の元になった報告書・Report Card 10-先進国の子どもの貧困(英語)は、国連児童基金(ユニセフ)が作成したものなので、指標の定義自体は明確です。ここで言う貧困率は正確には相対貧困率で、
 

「等価可処分所得(世帯の可処分所得を世帯員数の平方根で割った値)が、
 全国民の等価可処分所得の中央値の半分に満たない国民の割合」
                (参考:貧困率|ウイキペディア日本語版

 
を示します。等価可処分所得とか中央値とかわかり難い数値を使っていますが、細かな定義を無視して有り体に言えば、この指標は「所得が一般の半分以下の国民の比率」をあらわしています。この記事の場合は子どもの比率です。
 
問題は「所得が一般の半分以下」の低所得の人たちを貧困と呼ぶのが適切か否かです。
ここで言葉に対するイメージの違いが焦点になります。自分の語感で貧困といって思い浮かべるのは、教育費はもとより食べるものにも不自由するような状態です。すぐにでも手助けが必要な印象を持ちます。このため、先進国の相対的に低所得の人を貧困というのはしっくりきません。言葉に対するイメージは人により違うとはいえ、同じような印象を持つ人も多いのではないでしょうか。皆さんはいかがでしょう。
 
もちろん、相対的に困っている人がいて、それを助けようという考えはわかるのですが、この記事(や元の報告書)の場合、問題への注目を大きくするために話を必要以上に大きくしているように思えてなりません。故意にやっているかどうかは別にして、指標は受け手の共感を得られないと説得力が弱くなるので注意が必要です。
 
さて、この例から再認識するのは指標を取り扱うことの難しさです。指標の内容とラベルが不一致なことは案外多いのです。
 
まず、データをつくる側として考えます。数値を合成して指標を作成するときの名付けに注意が求められます。計算式をそのまま説明したような名称では長過ぎてよくわかりません(上記の例なら「等価可処分所得中央値半分以下割合」)。そこでその指標の意味付けを考えて象徴的な名称を付けることになるのですが、ここに飛躍が生まれます。おかしな名称をつけると、そのラベルだけが一人歩きして、後から面倒なことになり兼ねません。指標をつくる際には、ラベル付けを慎重にした上で、できる限り多くの機会に指標の数式や意味を説明するようにしなくてはならないと考えています。
 
一方、データを見る側としては、指標の算出方法にあたることが重要です。
相手に悪意があるかどうかは別にして、恣意的な指標名が付けられている例はたくさんあるからです。億劫がらず算出式にあたることが大切です。もし、指標の式等をみてもわからなかったら無駄にわかりにくくしている可能性があります。疑った方がいいでしょう。

いずれにせよ、指標に付けられた名称を鵜呑みにしないことが大切です。
データから適切な判断をするためにも、この点は誰にも心掛けて欲しいと考えています。