タグ : 統計

うるう年の統計学 2月の統計に水増しアリ?


この記事の所要時間: 320秒 〜 420秒程度(1903文字)


3月に入って早1週間。小売、外食産業などでは2月の月次売上速報が出はじめている。多くのデータに、前年同月比の増減率が付いているが、難しいのがその捉え方だ。
 
何せ、先月2月は4年に1度のうるう月。日数が1日多いのだから、売上は前年同月比で伸びていて当然と考えられる。あまり好調でない会社でも、1日の水増し(?)のおかげで売上増加となる可能性があるだろう。うるう年の統計は、少し悩ましい。
 

プラス

credit: geralt via pixabay

 
続きを読む

家計調査に見るバター不足の影響


この記事の所要時間: 150秒 〜 250秒程度(1149文字)


ここ数年、定期的にニュースになるバター不足。充分な量を供給しているという統計もあり、バターが不足している原因はよくわからない。価格の吊り上げを狙った業者が買い占めているという説もあるが、推測の域を出ないようだ(参考:バターはどこへ消えた? メーカーと小売店食い違い|日本経済新聞)。
 
このバター不足のニュース。川上の乳業メーカー、川下の洋菓子メーカーや流通業者を中心に取り上げられることが多いが、一般家庭にはどのような影響が出ているだろうか。先日公表された家計調査を使って、少しデータ化してみた。
 

 
続きを読む

片方だけなくなる靴下と哲学としての統計学


この記事の所要時間: 310秒 〜 410秒程度(1870文字)


「なぜ靴下は片方だけなくなるのか?」というテーマがある。「片方だけなくなる」理由は簡単で、両方なくなったら、なくなったこと自体に気付かないから。この答えは、言われてみれば「ごもっとも」だが、なかなか思い浮かばない発想だろう。「そもそも靴下なんてなくさない!」という野暮なつっこみさえしなければ、よくできた寓話と言える。
 
このように、自分が接したり、気付いたりした部分だけに注目して、誤った結論に達することは少なくない。ある意味ではデータを集めて考えているのだが、データをうまく使いきれてないでも言おうか。そこに欠けているのは、「哲学としての統計学」となる。
 

靴下

credit: clausjuntke via pixabay

 
続きを読む

瓶ビールと生ビール、どちらが正解?


この記事の所要時間: 320秒 〜 420秒程度(1880文字)


インターネットには定期的に湧き出す不思議な議論がある。
今回タイトルにした、瓶ビールと生ビールの争いもその一つだ。各地で梅雨が明けて、今や夏も真っ盛り。今年も、この話題が何処かしこで取り上げられていることだろう。
 
正直、「好きな方を頼めばいいじゃん!」のひと言で終了の話だが、この議論はちょっと統計の発想が入っているところがおもしろい。統計を苦手とする人の多くがつまづく標準偏差の考え方が、その背景にあるのだ。モノを評価するときには、平均だけではなく標準偏差、即ちバラツキについても考えることが必要。今回は、そんなトピックスを瓶ビールと生ビールの例で書いてみようと思う。
 

ビール

credit: diloz via FindCC

 
続きを読む

悪い友達がいると借金できなくなる?


この記事の所要時間: 320秒 〜 420秒程度(1955文字)


アメリカにはクレジットスコアという指標がある。
クレジットスコアはその人の信用度をあらわす偏差値のようなもの。大雑把に言えば、金融機関はクレジットスコアに基づき金利や貸付限度額を決めているのだ。また、このスコアは就職試験や不動産賃貸の審査などでも利用されている。「お金の管理ができない人は他の面でも問題がある」という考えで応用範囲が広がっているらしい。何とも世知辛い話だが、有効なデータ活用と言えるだろう。
 
このクレジットスコア。基本的にはこれまでの支払履歴から算出されている。確かに、長い間きちんとクレジットの支払いをしてきた人は今後も支払うだろうし、そうでない人はそのままだろう。信用度には年収や預金額なども影響しそうなものだが、クレジットスコアでは「どれだけまじめに返済してくれるか」を重視している(参考:信用情報|ウイキペディア日本語版)。
 
統計学には、ある変数(被説明変数)は他のいくつかの変数(説明変数)から算出できるという考え方がある。クレジットスコアの例で言えば、支払履歴などから信用度を推定できると考えるのだ。変数間の関係が明確であれば、こういう仕組みが成立することは誰でも想像できるだろう。このときポイントとなるのは説明変数の選択となる。被説明変数に大きな影響を与える変数を見付け出すことが重要なのだ。
 
GIGAZINEにFacebook上の友人があなたのクレジットスコアに影響を与えているという記事が掲載された。支払履歴とは違ったまったく新しい変数で、別のクレジットスコアを算出しようという動きがあるらしい。例えば、Facebook上の友達が支払いを遅延したことがあるかどうかで、クレジットスコアを決めるという。遅延した友達の有無が、実際に支払いをするかどうかに大きく影響するのなら合理的なモデルと考えられるが、友達次第で借金ができたりできなかったりすることに納得のいかない人も多いだろう。
 
以前は使用できる説明変数は限られていた。
しかし、インターネットの発達などによりどこかしこにデータが存在するようになってきたため、状況が変わってきている。測定可能な変数が増加し、コンピュータの計算能力が向上したため、扱える変数の幅が増えたのだ。データを分析する企業の側にはありがたい変化だが、分析される消費者の一人として考えるとあまり歓迎できない。
 

Photo credit : confidence, comely. / Foter / CC BY-NC Photo credit : confidence, comely. / Foter / CC BY-NC

 
続きを読む