データ活用で流行語ランキングを決めるなら


この記事の所要時間: 430秒 〜 530秒程度(2525文字)


2013 ユーキャン新語・流行語大賞が発表になった。今年は年間大賞が「今でしょ!」、「お・も・て・な・し」、「じぇじぇじぇ」、「倍返し」の4つ。これらを含めたトップテンは以下の通りとなる。

 2013ユーキャン新語・流行語大賞 トップテン    ※ホームページ掲載順
 ・今でしょ!
 ・お・も・て・な・し
 ・じぇじぇじぇ
 ・倍返し
 ・アベノミクス
 ・ご当地キャラ
 ・特定秘密保護法
 ・PM2.5
 ・ブラック企業
 ・ヘイトスピーチ

 
さて、この新語・流行語大賞を選んだのは姜尚中(作家・聖学院大学全学教授)、俵万智(歌人)、鳥越俊太郎(ジャーナリスト)など7名で構成される選考委員会だ。選考の結果や委員についてあれこれ言うつもりはないが、何とも前時代的な決め方と言えよう。いくら言葉や流行に敏感な人たちを集めても、個人の認識にはおのずと限界がある。一人一人の主観に基づいた「流行している/流行していない」の議論は、外から見ればかなり滑稽だ。「流行している」と言ったもん勝ちの感は否めない。
 
最近は、さまざまな技術の進歩によりいろいろなモノやコトが「計れる」ようになってきている。今の時代、流行語ランキングも計量したデータを活用して、もっと客観的な選考方法に変わると良いだろう。すでに今年の新語・流行語については、データからのアプローチがいくつか見られた。近い将来、流行語の捉え方が大きく様変わりする時代がやってくるかも知れない。
 

Photo credit : rick / CC BY Photo credit : rick / CC BY

 


真の新語・流行語大賞は今でしょ!、アベノミクス、ブラック企業?


  1位 パズドラ
  2位 ビッグダディ
  3位 ふなっしー
  4位 PM2.5
  5位 富士山
  6位 アベノミクス
  7位 ブラック企業
  8位 今でしょ
  9位 ダイオウイカ
  10位 じぇじぇじぇ

これは、Yahoo!検索 スタッフブログに掲載された新語・流行語のランキングだ。「2013年ユーキャン新語・流行語大賞」にノミネートされた50語を対象に、Yahoo!での検索数を集計している。本家のトップテンと共通する言葉を太字にしたところ、重複は4つ。これを多いと考えるか少ないと考えるかは微妙だが、なかなか興味深い結果と言えよう(参考:2013年に検索数が多かった「新語・流行語大賞」ノミネート語TOP20|Yahoo!検索 スタッフブログ)。
 
一方、ホットリンク株式会社が発表した「Twitterでつぶやかれたランキング」は以下の通りとなる。

 1位 パズドラ
 2位 ふなっしー
 3位 今でしょ
 4位 富士山
 5位 倍返し
 6位 汚染水
 7位 アベノミクス
 8位 激おこぷんぷん丸
 9位 ブラック企業
10位 フライングゲット

ソーシャルリスニングツール「クチコミ@係長」を使って集計したもので、元のランキングにはツイート数が添えられている。「パズドラ」なら2,076,667件、「ふなっしー」なら518,668件といった具合だ。 重複を見ると、こちらも本家との重なりは4つだが、「じぇじぇじぇ」の代わりに「倍返し」がランクインしている(参考:今年の流行語大賞は「パズドラ」!? ~ホットリンク、2013ユーキャン新語・流行語大賞候補語「Twitterでつぶやかれたランキング」を発表~)。
 
3つのトップテンに共通するのは「今でしょ!」、「アベノミクス」、「ブラック企業」の3つ。この3語を真の新語・流行語大賞とした方が、自分としてはすっきりする。「トップテンに共通する言葉」という決め方はかなり荒っぽいが、それでもデータ活用の要素を加味したランキングの方が説得力があるだろう。
 


いくつもの分析モデルが説得力を競う時代に!


もちろん、ここで紹介したランキングも言葉の流行を完璧には捉えてはいないだろう。Yahoo!の検索数やTwitterのつぶやき数は、言葉をデータとして捉えるときに第一級の資料となるのは間違いないが、何せインターネット上の言葉の流行に過ぎない。更に言えば、Yahoo!やTwitterを利用する人の偏りもあるし、検索したい、つぶやきに使いたいと思う言葉が、果たして「流行語」と一致するかはかなり怪しい。
 
では、どうしたらいいのか。机上の空論ならば、これらより優れた言葉のデータ化方法は考えられる。たとえば、同じインターネット上のデータでも広くホームページ全般の文書をテキストマイニングした方が偏りの少ない結果が得られるだろう。テレビやラジオから流れてくる言葉を音声認識ソフト等で書き起こして分析した方が、より一般的な話し言葉に近いかも知れない。プライバシーの問題さえ別にすれば、町中や電車の中、コーヒーショップや居酒屋での会話を集音した方が、更にリアルな言葉のデータベースになる筈だ。正直に言って、このうちどれが現実的なのかはよくわからないが、これらのいくつかは、不完全な形でもそのうち実現されるだろう。
 
いろいろなものがデータ化されるようになれば、次はその質が問われるようになる。このとき一番大切になるのは、「フィット」することと言えよう。流行語を決めるのに、どんなデータを使ってどんな分析をするのが適切なのかを問われるようになるのだ。分析の技術ではなく、目的にあった分析モデルをつくることが重要になる。上で紹介したランキングで言えば、Yahoo!の検索数とTwitterの検索数とツイート数で、どちらが「流行語」に近いかを競うことになるのだ。ここにフィット感がなければ、いくら膨大なデータを分析しても意味はない。
 
遠からぬ将来、あらゆるテーマについて、いくつもの分析モデルが説得力を競う時代になることを願う。そうなれば権威に頼った「流行」などは風前の灯だろう。流行が客観的に捉えられるよになれば、いろいろおもしろいことが起きそうだ。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

This blog is kept spam free by WP-SpamFree.