グラフ仕事人六道数人~陥りやすいデータ分析の誤りと効率的なグラフの利用方法

第17回最後の復習 その2:量的データと質的データ、悪魔のテクニック

本稿では直感でわかるデータ分析⁠2015年9月30日、技術評論社刊)の一部内容を参考にし、データなどを転載しています。

前回に引き続き、読者への挑戦について、正解率や誤答パターンを見ながら解説していきます。

連載第3話 『量的データと質的データは青春の蹉跌』 量的データと質的データについて

問題と解説ついてはこちら第8回第9回をご参照ください。

この回では、量的データと質的データについて解説しました。我々は通常ひとまとめでデータと表現していますが、その内容によって大きく扱い方が異なってきます。

チャート1
チャート1

量的データと質的データは混在して存在することがほとんどで、ビジネスで使うデータにも両方がまざっていることが多くあります。

画像
画像

我々がふだん用いている統計手法(主にExcelで使えるもの)には量的データを前提としたものが多いので注意が必要です。現実で目にするのは、量的データと質的データがまざったデータがほとんどなのに、既知で使いやすい手法は量的データを対象としたものがほとんどという矛盾があります。

「ケース1:満足度の平均値」の正解率は、67%と高い値になりました。もっともこれは当然で、問題の直前にほとんど回答と思えるような解説がありました。言葉を換えると、33%の人は記事を読まずにアンケートだけ回答して間違えたことになります。とはいっても、正解だからといって記事を読んでいるとは言えませんので、記事を読まずに回答している人はもっと多いと考えるべきでしょう。

「ケース2:重要度と満足度を比較するグラフ」この質問の正解率は17%ときわめて低くなりました。やはり、みなさん、記事読んでないですね!

主人公が折れ線至上主義者であって、しかもなぜ折れ線がよいのかきちんとした理由も示されているわけです。

さらに付け加えると、誤答で一番多かったのは「構成比を使った棒グラフ」です。連載第1話のタイトルをご記憶でしょうか? ⁠棒グラフの甘い罠」です。あまりにわかりやすく典型的な間違いをする人が多かったので驚きました。

「ケース3:複数のサイト利用者の職業分布の比較に適したグラフ」の結果には驚きました。正解者はゼロです。ほんとに記事読まないで回答してるんですね。誤答で多かったのは、⁠構成比を使った棒グラフ」です。役に立たないグラフの実用書をうのみにして金科玉条のごとく大事にしてるんでしょうか? 折れ線に決まっているでしょう!

「ケース4:計算結果の差異の原因」の正解率は、67%と高めでした。この問題はグラフではなく、数値計算の基本に関わることだったので誤答が少なかったのかもしれません。

正解率からじわじわ見えてくる記事を読まないで回答する挑戦者の実像

言葉で説明するより、チャートを見ていただいた方がきっと早いですね。第3話の正解率はケース1から3になるにつれて下がっており、最後にはゼロになります。記事を読んでいれば楽勝で正解のはずなのですが。

画像

量的データと質的データが混在しており、かつ複数のデータ系列の比較を行いたい場合は、折れ線グラフを選択するのが正解と思ってよいでしょう(データ系列がふたつだけに限定されるケースでは散布図も選択肢になります⁠⁠。

前回、グラフの特徴を整理した表を掲載しました。それを見ていただければ明らかでしょう。

連載第4話 『思うような結果を手に入れる悪魔のテクニック』 正しい結果を導くための質問方法

問題と解説ついてはこちら第11回第12回をご参照ください。

連載第4話では、データを収集する際の注意事項について解説しました。顧客データや各種ログなどビッグデータには事欠かない世の中になりましたが、最初のデータ入力時点で偏りや間違いが起きやすい表記になっていてはなんの意味もないゴミ集めに終わります。適切な言葉で顧客や利用者に入力してもらうには充分な注意が必要です。

回答が偏ることを悪用すると、思うような結果を手に入れることもできるテクニックになります。

読者への挑戦では、顧客に記入してもらう、あるいはアンケートを採る際に起こりがちな問題を取り上げました。

画像

「ケース1:威光暗示効果についての質問」非常に簡単な問題でした。75%が正解しました。⁠その他」と回答し、その内容で威光暗示効果と同じことを書いた人がいました。その人は記事を読んでいなかったんですね。記事中には威光暗示効果についての説明がありましたので読んでいれば正解だったはずです。

「ケース2:複数の解釈が可能な質問」半数=50%の方が正解でした。迷う選択肢があったと思いますが、記事を読んでいれば自ずと求められている答えがわかったと思います。複数の解釈が可能な選択肢があると、回答者がどのような意図で回答したかわからないため、データ分析する際の障害になります。

「ケース3:該当する選択肢が存在しない質問」38%の方が正解でした。なんと残りの62%の方は全員「複数の解釈が可能」という答えを選んでいました。

最終回では最後の問題の正答率と、全体を通しての印象などを紹介する予定です。

おすすめ記事

記事・ニュース一覧