データが「使える」ようになるには

隠れた法則を見つけ出す「データマイニング」

「ビッグデータ」⁠データサイエンティスト」などという言葉が世間を賑わせて久しい昨今ですが、これに併せて以前の流行が復活する形で広まるようになったのが、⁠データマイニング」という言葉です。

データマイニング(Data mining)を直訳すると、⁠データの採掘」となります。実際に、データマイニングという言葉は「⁠⁠データの山⁠という鉱山から、⁠ビジネスチャンス⁠という名の金を掘り出す」といったような意味合いで使われています。

「ビールと紙オムツ」の話を聞いたことがある人も多いのではないでしょうか? ⁠小さな子どもがいる家庭では、母親がかさばる紙オムツを買うように父親へ頼んでおり、スーパーへ買い物に来た父親はついでに缶ビールを購入していることが分かった。そこでその2つの商品を並べて陳列したところ、店の売り上げが増加した」といったような内容で知られています。

ただデータを並べて眺めただけでは膨大な数字の羅列にしか見えないものから、さまざまなメソッドを用いて「ビールと紙オムツ」のような意味のある情報を引き出してくる……このプロセスをデータマイニングと呼びます。

特に現在では、データマイニングというと

  • 統計学
  • 機械学習

この2つを合わせた知識発見の枠組みを指すことが多いようです。実際、巷のデータマイニングに関する書籍やセミナーなどの大半は、この2つをメインに取り上げています。⁠統計学」「機械学習」の両方をマスターすることが、データマイニングのエキスパートになるための必須条件なのです。

「R」を使ったデータ分析

本書ビジネスに活かすデータマイニングは、統計解析ツール「R」を自分の手で動かしながら学んでいく形式になっています。

統計処理を行うためのツールにもいろいろありますが、Rの最大の特徴は、⁠完全に無償」「オープン」であることです。この無償かつオープンなライセンスのもと、世界中のボランティアの研究者・開発者がRのパッケージを開発しつづけており、今や世界最先端の統計分析手法の多くが真っ先にRパッケージとして実装されるようになっています。

このような情勢を受け、Rは近年データ分析の世界における存在感を高めています。今後もRのシェアはさらに拡大し続けると見て良いでしょう。したがって、データマイニングのエキスパートになるには、先述の条件に加え、Rを使いこなせる能力も必要不可欠といえます。

ビジネスに関する具体例で実践!

本書では、現役のデータサイエンティスト(Data Scientist)であり、人気ブログ銀座で働くデータサイエンティストのブログを運営する尾崎隆さんが、データマイニングの基礎から最新手法について、具体的な事例をもとに分かりやすく解説しています。これからデータ分析の世界へ足を踏み入れようとしている方が一番はじめに読む1冊としておすすめな入門書です。

各章では、本書のタイトルにもある通り、下記のようなビジネスに関する話題を中心に取り上げています。

  • その2つのデータ、本当に差があるの?(仮説検定)
  • ビールの生産計画を立てよう(重回帰分析)
  • 自社サービス登録会員をグループ分けしてみよう(クラスタリング)
  • コンバージョン率を引き上げる要因はどこに?(ロジスティック回帰)
  • どのキャンペーンページが効果的だったのか?(決定木)
  • 新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう(SVM/ランダムフォレスト)
  • ECサイトの購入カテゴリデータから何が見える? ⁠アソシエーション分析)

統計学にせよ機械学習にせよ、その原理やアルゴリズムはただ座学で習い続けるには難解なものが多すぎます。なので、統計学や機械学習の分析メソッドの概要がつかめたら、とにかくまずは手持ちのデータに対して、Rのパッケージと関数をどんどん試していってみてください。そうしているうちに、みなさんなりの理解が出来上がっていくはずです。

実は、⁠機械学習」もコンピュータの内部でそのように学習しています。人間も機械に負けている場合ではありません。どんどん試して、調べて、解決して、学習していきましょう。そうすれば、あなたもきっと、データとRが「使える」ようになるはずです。