効果検証入門
~正しい比較のための因果推論/計量経済学の基礎
-
安井翔太 著
株式会社ホクソエム 監修 - 定価
- 2,948円(本体2,680円+税10%)
- 発売日
- 2020.1.18 2019.12.27
- 判型
- A5
- 頁数
- 240ページ
- ISBN
- 978-4-297-11117-5 978-4-297-11118-2
サポート情報
概要
ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,担当者はユーザの反応率を上げるために,反応しやすいであろうユーザに対してのみDMを発送します。ここで発生したデータでDMの効果を計る場合,単純にDMを受け取っているか否かで結果を比較することは,DMの効果以外にも意図的にリストされたユーザの興味や関心を含んでしまうことになります。
データが生まれるプロセスに人の意思が関わる場合,単純な集計では判断ミスとなる可能性があります。わずかな計算の狂いでも後々のビジネスにおいて大きな影響を及ぼすことになるため,バイアスのない状態で効果検証できることが望まれるのです。
本書では「単純に比較すると間違った結論に導くデータ」から,より正しい結果を導くための分析手法と考え方を提供します。計量経済学における効果とは何か? を提示し,RCT(ランダム化比較試験)がいかに理想的な方法かを説明し,RCTができない場合でも因果推論を用いてRCTの再現が可能だということを説明していきます。
こんな方にオススメ
- 効果検証を行う必要のあるエンジニアやデータサイエンティスト
目次
嘘っぱちの効果とそれを見抜けないデータ分析
- 思い込みによる意思決定の蔓延
- 「バイアス」によって見誤る効果
- 因果推論と計量経済学のビジネス適用
- 本書の構成
- 想定する読者
- サンプルコードとサポート
1 章 セレクションバイアスとRCT
- 1.1 セレクションバイアスとは
- 1.1.1 効果
- 1.1.2 潜在的な購買量の差
- 1.1.3 誤った施策の検証
- 1.2 RCT(Randomized Controlled Trial)
- 1.2.1 本当の「効果」と理想的な検証方法
- 1.2.2 RCTによる検証
- 1.3 効果を測る理想的な方法
- 1.3.1 母集団と推定
- 1.3.2 ポテンシャルアウトカムフレームワーク
- 1.3.3 ポテンシャルアウトカムフレームワークによる介入効果の推定
- 1.3.4 平均的な効果
- 1.3.5 平均的な効果の比較とセレクションバイアス
- 1.3.6 介入の決まり方がセレクションバイアスの有無を決める
- 1.3.7 RCTを行った疑似データでの比較
- 1.3.8 有意差検定の概要と限界
- 1.4 R によるメールマーケティングの効果の検証
- 1.4.1 RCTを行ったデータの準備
- 1.4.2 RCTデータの集計と有意差検定
- 1.4.3 バイアスのあるデータによる効果の検証
- 1.5 ビジネスにおける因果推論の必要性
- 1.5.1 RCTの実行にはコストがかかる
- 1.5.2 セレクションバイアスが起きる理由
- 1.5.3 ビジネスにおけるバイアスのループ
- 参考文献
2 章 介入効果を測るための回帰分析
- 2.1 回帰分析の導入
- 2.1.1 単回帰分析
- 2.1.2 効果分析のための回帰分析
- 2.1.3 回帰分析による効果の推定
- 2.1.4 回帰分析における有意差検定
- 2.1.5 Rによるメールマーケティングデータの分析(回帰編)
- 2.1.6 効果検証のための回帰分析で行わないこと
- 2.2 回帰分析におけるバイアス
- 2.2.1 共変量の追加による効果への作用
- 2.2.2 脱落変数バイアス(OVB)
- 2.2.3 R によるOVBの確認
- 2.2.4 OVB が与えてくれる情報
- 2.2.5 Conditional Independence Assumption
- 2.2.6 変数の選び方とモデルの評価
- 2.2.7 Post treatment bias
- 2.3 回帰分析を利用した探索的な効果検証
- 2.3.1 PACESによる学費の割引券配布の概要
- 2.3.2 R による回帰分析の実行
- 2.3.3 私立学校への通学と割引券の利用についての分析
- 2.3.4 割引券は留年を減らしているか?
- 2.3.5 性別による効果差
- 2.3.6 分析のまとめ
- 2.4 回帰分析に関するさまざまな議論
- 2.4.1 予測と効果推定
- 2.4.2 制限被説明変数(Limited Dependent Variable)
- 2.4.3 対数を利用した回帰分析
- 2.4.4 多重共線性
- 2.4.5 パラメータの計算
- 参考文献
3 章 傾向スコアを用いた分析
- 3.1 傾向スコアのしくみ
- 3.1.1 傾向スコアのアイデア
- 3.1.2 傾向スコアの推定
- 3.2 傾向スコアを利用した効果の推定
- 3.2.1 傾向スコアマッチング
- 3.2.2 逆確率重み付き推定
- 3.2.3 より良い傾向スコアとは
- 3.2.4 傾向スコアと回帰分析の比較
- 3.2.5 マッチングとIPW の差
- 3.3 機械学習を利用したメールマーケティング施策の効果推定
- 3.3.1 データの作成
- 3.3.2 RCTと平均の比較
- 3.3.3 傾向スコアを用いた分析
- 3.4 LaLonde データセットの分析
- 3.4.1 NSW の概要とデータの準備
- 3.4.2 RCTによる結果の確認
- 3.4.3 回帰分析による効果の推定
- 3.4.4 傾向スコアによる効果の推定
- 参考文献
4 章 差分の差分法(DID)とCausalImpact
- 4.1 DID(差分の差分法)
- 4.1.1 DID が必要になる状況
- 4.1.2 集計による効果検証とその欠点
- 4.1.3 DID のアイデアを用いた集計分析
- 4.1.4 回帰分析を利用したDID
- 4.1.5 DID における標準誤差
- 4.1.6 平行トレンド仮定(Common Trend Assumption)と共変量
- 4.2 CausalImpact
- 4.2.1 DID の欠点
- 4.2.2 CausalImpactのアイデア
- 4.3 大規模禁煙キャンペーンがもたらすタバコの売上への影響
- 4.3.1 データの準備
- 4.3.2 DID の実装
- 4.3.3 CausalImpactの実装
- 4.3.4 分析結果の比較
- 4.4 不完全な実験を補佐する
- 4.4.1 DID のアイデアを用いた分析が使えないとき
- 参考文献
5 章 回帰不連続デザイン(RDD)
- 5.1 ルールが生み出すセレクションバイアス
- 5.1.1 回帰不連続デザインのしくみ
- 5.1.2 集計によるセレクションバイアスの確認
- 5.2 回帰不連続デザイン(RDD)
- 5.2.1 線形回帰による分析
- 5.2.2 非線形回帰による分析
- 5.2.3 メールによる来訪率の増加効果を分析する
- 5.3 nonparametric RDD
- 5.3.1 nonparametric RDD のしくみ
- 5.3.2 R によるnonparametric RDD の実装
- 5.4 回帰不連続デザインの仮定
- 5.4.1 Continuity of Conditional Regression Functions
- 5.4.2 non-manipulation
- 5.4.3 LATEの妥当性
- 5.5 ビジネスにおける介入割り当てルール
- 5.5.1 ユーザセグメントへの介入
- 5.5.2 Uber による価格変更の分析
- 参考文献
付録 RとRStudioの基礎
- A.1 R およびRStudio のダウンロード
- Rのインストール
- Rの起動と終了
- RStudio のインストール
- A.2 RStudio の基本
- パネルの役割
- プロジェクトと作業ディレクトリ
- A.3 R プログラミングの初歩
- オブジェクト
- ベクトル
- 関数
- データフレーム
- 行列
- パッケージの利用
- 作業(ワーク)スペース
- 因果推論をビジネスにするために
- 因果推論を活用できる環境とは
- より正しい意思決定をするために
- 高次元の共変量を扱うためのR パッケージ
- より強い因果効果を得るために
- 参考文献
- 索引
プロフィール
安井翔太
2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。
入社後は広告代理店にて広告効果検証等を行い,その後2015年にアドテクスタジオへ異動。
以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて,機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。
現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で,Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。