『ナンバーセンス』-ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方 - ナレッジワーカーラボ
厳選した国内外の良書のハイライトを、3000文字のダイジェストでお届けします。
概要
書名:『ナンバーセンス』-ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方
著者:カイザー・ファング 著、矢羽野 薫 訳
出版社:CCCメディアハウス
2015/02 288p 1,800円(税別)
原書:NUMBERSENSE(2013)
1.ソーシャルデータ
2.マーケティングデータ
3.エコノミックデータ
4.スポーツデータ
【要旨】「ビッグデータ」という言葉が世界的な流行語となり、多くの人が数字と統計に関心を持つようになってきた。デジタル技術の進化等により莫大な量のデータを扱えるようにはなったが、それをどのように分析し、活用していくかについては、さらなる論議が必要といえよう。
本書では、ビッグデータをはじめとするさまざまなデータや数字を正しく扱い、できるかぎり真実に近い分析をめざすための統計リテラシーを「ナンバーセンス」と呼ぶ。誤ったデータ分析や嘘・ごまかしの数字の実例を多数挙げ、どこに落とし穴があるかを指摘、ナンバーセンスの磨き方を指南している。著者は、広告やマーケティングに適用する統計のプロフェッショナルとして10年以上のキャリアをもつ。
他の著書に『ヤバい統計学』(CCCメディアハウス)がある。
抜き出し
グルーポン利用で提携店が収益を上げるのは難しい 私の考えるビッグデータは、業界の基準より範囲が広い。肝心なのはデータが増えていることではなく、データの「分析」が増えていることだ。より多くの分析を、より迅速に提供できる人材が、より多く求められている。ビッグデータ時代の真の原動力は、データの量ではなく有用性だ。
問題のあるデータやアナリストを見たときに、何かが違うと感じる。それがナンバーセンスだ。ナンバーセンスは、真実に近づきたいという欲望と粘り強さでもある。自分の分析がどこから生まれ、どこに向かうのかを理解する。手がかりを集め、罠を見抜く。どこで引き返し、どこで突き進めばいいかを見きわめる知恵であり、立ち止まる分別だ。
共同購入クーポンサイトのグルーポンの仕事は、人々にメールを送信して、割引クーポンを売り込むことだ。さまざまな商品やサービスのほとんどが50%以上、値引きされる。
ケンタッキー州ルイビルにあるレストラン「セビシェ」が、「60ドル相当の中南米料理とドリンクが25ドル」というクーポンを約800枚発行した。来店してクーポンを利用した人の標準的な飲食代は100ドル。60ドルをクーポンで、残り40ドルと税金、チップを自分で払う。店の取り分は40ドルと、後日グルーポンから12ドル50セントが入金される。客がクーポンの代金として前払いした25ドルは、店とグルーポンが折半する契約だ。合計で、店はディナー1人分につき52ドル50セントの収入になる。料理とサービスの原価33ドルを引いた粗利益は19ドル50セント。800枚のクーポンがすべて利用されたら、粗利益は総額約15,000ドルになる。
一見すると、セビシェが「自分ではマーケティングをいっさい行わずに、一夜にして新しい顧客を獲得できる」という結論に飛びつきたくもなる。しかし、このバラ色の数字をもう一度、考えてみよう。
クーポンを使わない普通の客が100ドル分の食事をすると、粗利益は67ドル。しかし、クーポンを使った客が100ドル分の食事をすると、粗利益は19ドル50セントしかない。差額の47ドル50セントはどこに消えたのか──12ドル50セントはグルーポンに、残り35ドルは客の懐に入るのだ。セビシェは67ドル稼げたはずなのに、その3分の1以下しか手にできない。19ドル50セントもそれなりの利益かもしれないが、手にできたかもしれない67ドルと並ぶと、少なすぎる額に思える。
クーポンの購入者には、セビシェを一度も訪れたことがない新規の客と、普段から通っているが、お得なクーポンにあずかろうという客がいる。この「新規の客」と「クーポンを持った常連客」の比率が店の収益を決める。クーポンの常連客は47ドル50セントの損失を店に与えるが、新規の客の増分利益(この場合、クーポンによって増えた利益)19ドル50セントで埋め合わせることができる。クーポンの効果で常連客1人につき新規の客が最低2.5人来店すると、収支が釣り合う。言い換えれば、クーポン利用者の70%が新規の客でないと採算は取れない。
皮肉なことに、常連客のほうがクーポンを愛用する。グルーポンのクーポンは前払いなので、新規の客は衝動買いにならないかと考えるかもしれないが、常連客にとっては確実にお買い得だ。平均的な新規の客は、クーポンを使った店を再び訪れる確率はかなり低い。それに対し常連客は、もともと「満足した顧客」であり、再び訪れて正規の値段を払ってもいいと思うだろう。
顧客を絞り込むターゲティング手法がはらむ矛盾
提携店としては、ネット回線がパンクするほどクーポンを発行して、できるだけ多く新規の客を獲得しつつ、忠実な常連客はクーポンの存在に気がつかないでほしいところだろう。もっとも、これらを両立させるのはかなり難しい。この矛盾を解決してくれそうなのが、ターゲティングの技術だ。店が想定する顧客にターゲットを絞るアルゴリズムをグルーポンが開発できれば、店はクーポンで確実に利益をあげることができる。
ターゲティングは、対象となる条件を限定し、働きかけをするべき顧客を絞り込む作業だ。クーポンを購入する可能性が低い人を除外することによって、統計モデル上は顧客反応率が高くなる。
あなたは小さなピザ店を経営しているとしよう。常連のピーターは毎週木曜日に来店する。デービッドは自宅が近所だが、一度も店に来たことがない。グルーポンで前払いのクーポンを買いそうなのは、2人のどちらだろうか。グルーポンの利益を最大限にするターゲティングのモデルは、デービッドよりピーターに積極的に売り込む。だが、あなたはうれしくない。店としては、クーポンをきっかけにデービッドに初めてピザを食べてもらいたいし、ピーターはクーポンがなくても毎週木曜日に来るだろう。
提携店は、ターゲティングのモデルをグルーポンとは異なる視点から見る。彼らが求めているのは、クーポンを購入する可能性をもとにグルーポンの会員を分類することではなく、新規の客を抽出してクーポン利用の常連客を除外するようなアルゴリズムだ。そのためには、新規の客になりそうな可能性を評価する仕組みが必要になる。
消費者物価指数はコア・インフレ率より非集計に注目すべき
経済に関する報道は、平均に対する畏怖がつきまとう。消費者物価指数も例外ではない。消費者物価指数は、平均的な小売店で平均的な品目を買った場合の平均的な価格の変動で、その品目は、平均的な地域で平均的な年齢の消費者が買う平均的な買い物かごの中身から、その特色を象徴するように選んだものだ。そして、たったひとつの数字が報道されるたびに、私たちは公式の統計が自分自身の消費者としての経験とかけ離れていることに困惑する。
1970年代以降、経済学の重鎮はアメリカの政策決定者に「コア・インフレ率」の概念を売り込んでいる。コア・インフレ率は、物価の基本的な変化を把握するために変動の大きな品目を除いた物価上昇率で、アメリカでは食料品とエネルギーを除いた消費者物価指数が「コア」とされる。経済学者は「コア・インフレ率」が、全国の一般的な価格の長期的な傾向をより正確に表すと主張する。食料品とエネルギーの価格は乱高下しやすく、物価の基本的な変化をとらえるのに邪魔になる。
ただし、1週間のあいだに食料品やガソリン代をいっさい払わないことは、めったにないだろう。経済学者と違って、ほとんどの人は食料品とエネルギーを「コアな」支出と見なす。年間支出の平均で4分の1を、食料品とエネルギーが占める。
統計学者はデータを無視することを嫌う。問題のあるデータは切り捨てるときもあるが、ばらつきが多すぎるからダメだとはならない。このようなときに、統計学者は「非集計」の手法を使う。データを分解し、構成要素をひとつひとつ分析していくのだ。
景気の波を論じるジャーナリストは、ビッグデータの本当の意味に気がついていない。労働統計局は、幅広い地域や支出群にまたがる物価指数や、さまざまな定義のインフレ率など膨大な数字も公開しているが、それらを報道で見聞きすることはめったにない。非集計は集計のプロセスを解き明かすし、項目別の指数のほうが私たちは納得しやすい。データが豊富にあるときは、構成要素の多様性に注目するべきだ。平均化とフィルタリングは思わぬ反動を招きかねない。平均化は多様性を一掃し、フィルタリングは現実を覆い隠してしまう。
【記事提供】情報工場
www.kwlabo.com