グラフ仕事人六道数人~陥りやすいデータ分析の誤りと効率的なグラフの利用方法

第9回量的データと質的データは青春の蹉跌 その3:ビジネスで必須の質的データの相関を簡単にグラフから確認する

本稿では直感でわかるデータ分析⁠2015年9月30日、技術評論社刊)の一部内容を参考にし、データなどを転載しています。

至高の知能に恵まれ、神もうらやむ美貌の息子から提示された3つの問題に様也は答えられない。難しい問題ではないことはなんとなく察しがつくのだが、答えが出てこない。しかたがないので、適当に取り繕う。

  • 「ケース1は、同じように計算できるんじゃないかな? だってほら同じ満足度だしさ」

おそるおそる答える様也の顔に父親の威厳はない。

  • 「あなたは、本当に物事をきちんと理解できない人だ。間隔尺度であるためには、⁠等しい間隔⁠が必要と申し上げたではありませんか。4段階評価では等間隔になりません」

数人はあきれた表情でため息をつく。

  • 「あっ、なるほどな!」

様也は血の涙でノートを濡らしながらメモをとる。

  • 「これはとても大事なことですから注意してください。さて、ケース2はおわかりですか?」

様也は一瞬考え込んだ。よくわかっていなくても尋ねられたら、とりあえずその場しのぎで答えるのはコンサルタントのもっとも大事な技術のひとつだ。様也にはその力が欠如している。本人もそれはよくわかっているので、必死になにか言おうと試みた。

  • 「わかった! この場合は、棒グラフだ。それで量を比較するために実数のままでグラフ化する」
  • 「ほほお」

様也の答えに数人は口の端を歪めて微笑む。蔑みを込めた冷たい視線が父親を刺す。

  • 「棒グラフねえ。昔風の模範解答のように聞こえますが、この場合にはあてはまりません。グラフ1とグラフ2をご覧なさい」
グラフ1
グラフ1
グラフ1
グラフ1
  • 「棒グラフで傾向が読めますか? 折れ線グラフならひと目で、サジェストサービスの満足度と重要度は似たような傾向を示していて、メールサービスは異なる傾向を示していることがわかります」

確かにその通りだ。明らかに折れ線グラフのほうがわかりやすい。様也はこれまで自分が参考にしてきた、あまたの実用書を呪った。

  • 「だって……こういうときは棒グラフを使ったほうがいいって……」

様也の両眼からぼろぼろと血の涙がこぼれ食卓を血に染める。

  • 「折れ線グラフは最も汎用性が高く、傾向を読み取るのに優れています。複数のデータ系列をグラフにする時点で比較を行うことが前提になりますから傾向を読み取りやすいものの方が適しています。カビの生えたテキストに書いてあることを鵜呑みにしてはいけません。加えて申し上げると、できるだけ構成比を用いた方が傾向の比較には有益です。ボリュームを表すのには、実数をベースにしたグラフが向きますが、複数のデータ系列の比較を行う際、それぞれのボリュームが異なると比較が難しくなります。数十万単位の売上の店舗と、数万円単位の売上の店舗の製品ごとの売れ行きを比較するのに実数でグラフを作ってしまったら、売上の少ない店舗の売上はほとんどわからなくなります。棒グラフは量のグラフ化に向いているからといってやみくもに実数でグラフ化しては比較しにくくなります。まあ、折れ線グラフを構成比で作成していればたいていのことは問題にならないのですが……」

よどみない数人の説明に様也はついて行けない。メモも遅れがちだ。息子である数人は、下界を見下ろす神の視線でその様子をながめている。

  • 「そうなんだ。ははははは。父さん、参っちゃったな」

様也は数人の視線に気づいて作り笑いした。

  • 「笑ってごまかすのは愚か者の常套手段です。今どきはコンサルタントだって、そんなことをしませんよ」
  • 「……すまん」
  • 「人間は進歩しません。ただ変化するだけですから、愚か者に成長を望むことが間違っているのかもしれません。ケース3に移る前に大事なことを教えましょう。ビジネスでは質的データを扱います。地名、製品名、職業、性別……みんな質的データです。量的データなら複数のデータ系列の比較を行う際に相関係数を使う手があり、エクセルで簡単に計算できますが、質的データはそうはいきません。質的データ用の相関係数も存在しますが、エクセルにそんな関数は備わっていません。しかし、グラフを作成すれば簡単に相関があるかないかの目安をつけられます。さあ、ケース3の正解をご覧なさい。構成比に基づく折れ線グラフの美しさに酔うのです。神が人間に与えた叡智の1つです」
グラフ3 ⁠直感でわかるデータ分析』⁠2015/9/30、技術評論社刊)より転載
グラフ3 『直感でわかるデータ分析』(2015/9/30、技術評論社刊)より転載
  • 「これは、あるビジネスサイトと競合サイトの利用者の職業分布を折れ線グラフにしてみたものです。かなりはっきりと、業界平均に近い分布のサイトとそうでないものが分かれています。折れ線グラフにすることによって、線のカーブが類似しているものを見分けることが容易になり、それがとりもなおさず相関関係であり、似た傾向を持つことを示しているのです。同じことを計算でやろうとすると、いくつかある質的データ用の相関係数を計算し、比較しなければなりません。統計用ソフトを利用しなければなりませんし、正しく利用&解釈するための知識も必須となります。それに比べるとグラフははるかに簡単です。お父さんでも使えるくらいにね。折れ線グラフの神に感謝すべきでしょう」

数人の言葉を聞きながら様也は、⁠折れ線グラフの神様」と意味不明な言葉をつぶやきだした。両眼から、ぼたぼたと血の涙がこぼれる。

  • 「しっかりしてください。あなたには、働いて家庭を維持する以外の存在意義がないのですから、精進してお金を稼いできてください。ケース4の説明をします」

ケース4と聞いて、様也がはっと正気を取り戻した。再びメモをとる構えをする。

  • 「なぜ、あなたと私の計算結果が異なっていたのかわかりましたか?」

数人の問いに様也は、首を横に振る。

  • 「簡単な話です。ゼロの扱いです。エクセルはブランクはデータが存在しないと判断して平均値を計算しますが、ゼロの場合はゼロという値が存在するとして計算します。しかし今回の場合、もともとゼロは存在してはいけないデータです。データを見ても1つでもゼロの値を持つサンプルの回答はすべてゼロになっています。つまり無回答あるいはその他の理由で無効となっているデータでしょう。

    ということはここは無効なデータ(エクセルでのブランク)と同じ扱いにしなければなりません。あなたの計算結果はエクセルの関数で計算したため、ゼロが有効なデータとして扱われています。私はゼロを無効な値としてはじいて計算しました。単純なミスですが、結果を大きく歪めてしまいますので注意が必要です。このケースでも結果が逆転していますね」

様也は首をかしげながらメモを続ける。理解していないが、メモだけは律儀にとり続ける。

  • 「昔、とある雑誌の編集部が読者アンケートの5段階評価の回答の平均値で記事のランキングを作成していましたが、先ほどのお父さんと同じ間違いをしていました。回答のないものも含めて計算してしまうと、今回のように結果が逆転することもあります。不人気の記事が上位に食い込んだりするのです。無知は死を招くのです」

数人は言葉を切ると、髪をかき上げた。漆黒の黒髪なのに光りを反射して金髪に見える。グラフの神に愛されたアポロンの姿がここにある。

凡人の様也はカレー皿にたまった血の涙に目を落とし、貧血気味の青い顔で自室に引き上げる華麗な後ろ姿を見送った。

おすすめ記事

記事・ニュース一覧