データの「歪み」をはっきり見せる方法


この記事の所要時間: 240秒 〜 340秒程度(1546文字)


データから有効なメッセージを読み取りたいなら、その「歪み」に注目することが必要になる。前々回の記事(高齢者はクレーマー? データの見方に要注意!)でも書いたように、元々の構成比が多い層の比率は、ある特徴を持った人の構成比でも多くて当たり前。全体の構成比とそこに含まれる一部の構成比の差が、意味ある情報となる。この差こそが、ここで言うところの「歪み」。多くの場合、データの解釈は、比較をして「歪み」を見付けることではじめて可能になる。
 
ただし、全体とその一部を比較するときによく用いられる帯グラフからは、歪みがあまり読み取れない。

首都圏1都6県年代別人口構成比

これは2013年10月1日現在の首都圏1都6県の年代別人口構成比を比較した帯グラフだが、各都県の人口が全国と較べてどんな特徴を持っているかわかるだろうか(参考:各年10月1日現在人口推計|政府統計の総合窓口「e-Stat」)。もちろん、よく見れば「東京都は20歳代、30歳代、40歳代が多い」、「北関東3県では60歳代がやや多め」などとわかるが、パッと見ただけその傾向がわかる人は少ないだろう。歪みをはっきり示したいなら、それなりの見せ方が求められるのだ。
 

chart

credit: markusspiske via FindCC

 


色付けでは「差の大きさ」がわからない


構成比の差を見るときには、このような表をつくることも多い。各層の構成比を一覧にして、特徴的なところに色付けする見せ方だ。

首都圏1都6県年代別人口構成比

 
確かに、この方が帯グラフより違いがはっきりする。どの都県でどの年代が多いか/少ないかは一目瞭然だ。ただし、全体との「差の大きさ」がわからないのが難点だ。色付けを2段階するなどの工夫はできるものの、やはり数値のみでは見せ方として不充分だろう。大量のデータを較べるときには向いているが、「歪み」を見せるにはやや弱い。
 


各層と全体の比をグラフにすると・・・


さて、「歪み」を表現することにこだわるなら、次のようなグラフががオススメとなる。

東京都の年代別人口構成比

これは、全体と東京都の比をグラフ化したもの。全体の9歳未満が8.3%に対して、東京都の同層が7.6%なので、7.6% ÷ 8.3% = 0.908。そのままの数値ではわかりにくいので、パーセント化した上で100.0%との差を取って-9.2%を使っている(図中に計算が合わない箇所があるのは、実際は小数第2位以下も使っているため)。この比を各カテゴリーについて算出すると、このようなグラフが出来上がる訳だ。
 
このグラフを横軸の分(今回のデータなら1都6県分)だけつくれば、歪みがよく見えるようになる。全体の構成比はグラフになっていないが、メッセージ発信は取捨選択があっていい。必要に応じて、「歪み」に注目したこういう表現をすることも大切だ。
 


どんな人が多くて、どんな人が少ないか


このグラフは応用範囲が広い。カテゴリーがいくら増えても問題なく図示できるし、いくつもの質問にまたがって活用することもできる。1歳刻みの年齢だってグラフにできるし、年齢以外に性別や職業を同様のグラフにしても問題ない。このグラフを使えば、どんな人が多くて、どんな人が少ないかが誰にでもすぐわかる。
 
会社の従業員構成を人口構成と比べたり、サイト登録者を日本の人口やインターネット利用者の構成と比較したり、使い方は幅広い。全体から見たときの部分の「歪み」を表現するのに役に立つ。何かのときに使える見せ方として、一つ覚えて欲しいところだ。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.