前処理大全
[データ分析のためのSQL/R/Python実践テクニック]
-
本橋智光 著
株式会社ホクソエム 監修 - 定価
- 3,300円(本体3,000円+税10%)
- 発売日
- 2018.4.13[在庫なし]
- 判型
- B5変形
- 頁数
- 336ページ
- ISBN
- 978-4-7741-9647-3 978-4-7741-9768-5
概要
データサイエンスの現場において,その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで,予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR,Python,SQLを用いた実装方法を紹介しますので,複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
目次
- はじめに
- 0-1 本書の目的
- 0-2 対象読者
- 0-3 本書の構成
Part1 入門前処理
第1章 前処理とは
- 1-1 データ
- 1-2 前処理の役割
- 1-3 前処理の流れ
- 1-4 3つのプログラミング言語
- 1-5 パッケージ/ライブラリ
- 1-6 データセット
- 1-7 データの読み込み
Part2 データ構造を対象とした前処理
第2章 抽出
- 2-1 データ列指定による抽出
- 2-2 条件指定による抽出
- 2-3 データ値に基づかないサンプリング
- 2-4 サンプリング
第3章 集約
- 3-1 データ数,種類数の算出
- 3-2 合計値の算出
- 3-3 極値,代表値の算出
- 3-4 ばらつき具合の算出
- 3-5 最頻値の算出
- 3-6 順位の算出
第4章 結合
- 4-1 マスタテーブルの結合
- 4-2 条件に応じた結合テーブルの切り替え
- 4-3 過去データの結合
- 4-4 全結合
第5章 分割
- 5-1 レコードデータにおけるモデル検証用のデータ分割
- 5-2 時系列データにおけるモデル検証用のデータ分割
第6章 生成
- 6-1 アンダーサンプリングによる不均衡データの調整
- 6-2 オーバーサンプリングによる不均衡データの調整
第7章 展開
- 7-1 横持ちへの変換
- 7-2 スパースマトリックスへの変換
Part3 データ内容を対象とした前処理
第8章 数値型
- 8-1 数値型への変換
- 8-2 対数化による非線形な変化
- 8-3 カテゴリ化による非線形な変化
- 8-4 カテゴリ化による非線形な変化
- 8-5 外れ値の除去
- 8-6 主成分分析による次元圧縮
- 8-7 数値の補完
第9章 カテゴリ型
- 9-1 カテゴリ型への変換
- 9-2 ダミー変数化
- 9-3 カテゴリ値の集約
- 9-4 カテゴリ値の組み合わせ
- 9-5 カテゴリ型の数値化
- 9-6 カテゴリ型の補完
第10章 日時型
- 10-1 日時型,日付型への変換
- 10-2 年/月/日/時刻/分/秒/曜日への変換
- 10-3 日時差への変換
- 10-4 日時型の増減
- 10-5 季節への変換
- 10-6 時間帯への変換
- 10-7 平休日への変換
第11章 文字型
- 11-1 形態素解析による分解
- 11-2 単語の集合データに変換
- 11-3 TF-IDFによる単語の重要度調整
第12章 位置情報型
- 12-1 日本測地系から世界測地系の変換,度分秒から度への変換
- 12-2 2点間の距離,方角の計算
Part4 実践前処理
第13章 演習問題
- 13-1 集計分析の前処理
- 13-2 レコメンデーションの前処理
- 13-3 予測モデリングの前処理
プロフィール
本橋智光
システム開発会社の研究員,Web系企業のデータサイエンティストを経て,現在はデジタル医療スタートアップのサスメド株式会社のCTO。株式会社ホクソエムにも所属。量子アニーリングコンピュータの検証に個人事業主として従事。製造業,小売業,金融業,運輸業,レジャー業,Webなど多様な業種なデータ分析を経験。KDD CUP 2015 2位。趣味でマリオのAIを開発。
Twitter:@tomomoto_LV3