グラフ仕事人六道数人~陥りやすいデータ分析の誤りと効率的なグラフの利用方法

第16回最後の復習 その1:挑戦者の傾向、棒グラフと因果関係

本稿では直感でわかるデータ分析⁠2015年9月30日、技術評論社刊)の一部内容を参考にし、データなどを転載しています。

読者の皆さん、こんにちは。六道数人です。

約5ヵ月間にわたる連載もいよいよ最後の月を迎えました。ご愛読ありがとうございました。最後の3回もよろしくおつきあいください。

これまでは月にひとつテーマを決めて取り上げてました。最後の3回は、過去に「読者への挑戦」と称して実施したアンケートの正答率を見ながら、おさらいをしてみたいと思います。第1回の今回は、連載最初の2話をとりあげます。

その前に挑戦者のみなさんののプロフィールを簡単に見てみましょう。アンケート形式で読者の回答を募り始めたのが第2話で、回答を集め終わっているのが第4話なので3回分の合計の傾向です。

画像

性別は圧倒的に男性が81%と多かったです。

画像

年齢分布は20代後半から30代前半をピークとして年齢が高くなるに従ってなだらかに下降してゆきます。それより下の年齢はまだ社会人になっていないことと、社会人になって間もないためデータ分析まで手が回ってのかもしれません。現場でがんばっているみなさんが主に回答してくださったという印象です。

画像

データ分析との関わりでは、定常的にデータ分析を行っている方と必要に応じて行う方を合わせると半数を超えます。それ以外にもプライベートで勉強している方が18.52%いらっしゃるので回答者の多くがデータ分析と関わりを持っていると言ってよいでしょう。

連載第1話 『棒グラフの甘い罠』 グラフの使い分けについて

この回の問題では、読者への挑戦がアンケートの形になっていませんでした。そのため回答の傾向や正解率を確認することができません。

連載第1話で最も大切なのは、目的に応じた適切なグラフを選ぶことと、適切な構成比を用いることでした。

そしてどのようなグラフが適切かを判断する際のもっとも単純な方法は、⁠とりあえず折れ線グラフ」です。折れ線グラフは一般的な理解とは異なり、非常に柔軟にさまざまな形のデータを直感的な理解を助ける形でグラフできます。このことは、ぜひ、覚えておいてください。

画像

折れ線グラフの有用性がいかに理解されていないかは、連載第3話の問題において、正解者ゼロという問題があったことからも明らかです。連載第1話のタイトルでで『棒グラフの甘い罠』と警告したにもかかわらず、みなさんが棒グラフを適切なグラフとして選んでいました。合理的でない常識にとらわれ、記事を読まずに問題だけ解こうとする人は意外と多いようです。というか挑戦者全員?

連載第2話 『因果関係はプロクルステスの寝台』

問題の詳細については過去の記事の問題と解説第5回第6回を参照してください。

この回では因果関係と相関関係について解説しました。相関と因果は似て非なるものです。相関があっても因果関係がないこともあります。また因果関係には方向やパターンがあります。

「年齢が高くなると甘い物を食べなくなる傾向がある」というのは年齢が甘い物を食べない傾向に影響を与える。つまり年齢から甘い物の摂取に因果の向きがあります。

「年齢が上がると婚姻率が高くなる傾向がある⁠⁠、⁠年齢が高くなると甘い物を食べなくなる傾向がある」というのはふたつの独立した因果関係です。しかし婚姻率と甘い物の摂取で統計的な相関係数を計算すると、婚姻率と甘い物を食べる傾向には見かけ上有意な相関が現れます。3つの要因を布置し、どこからどこに因果の矢印が伸びているかを描いてみる(=因果ダイアグラムを作ってみる)と、きれいに整理できます。

この回の問題は、相関関係があるものについて、因果関係もあるかどうかを判別するものでした。

「ケース1:キャンディのパラドックス」の正解率は67%でした。これは比較的わかりやすかったようです。

因果ダイアグラム1
因果ダイアグラム1

「ケース2:ニュースサイトのパラドックス」の正解率は、少し下がって56%でした。

因果ダイアグラム2
因果ダイアグラム2

「ケース3:ゲーム大会参加者のパラドックス」の正解率は、かなり低く39%にとどまりました。この問題は複数の解釈と正解がありそうにも読めるのですが、記事本文を読めばどれが正解であるかは明らかです。出題者の意図を読むのも問題を解決する上での重要なポイントということを忘れてはいけません。誤答した方は記事本文をちゃんと読んでいなかったのかもしれません。

因果ダイアグラム3
因果ダイアグラム3

おすすめ記事

記事・ニュース一覧