目次
第1章 データ分析基盤への招待 データ分析基盤の大枠を知ろう
- 1.1 データ分析基盤と技術ランドスケープ プラットフォームを支える群雄割拠のツールたち
- 1.2 データ分析システムとデータ分析基盤 システムとプラットフォームの違いを理解しよう
- 1.3 本章のまとめ
第2章 ローカル端末で学ぶデータ分析基盤 ローカルのデータ分析基盤を利用して理解を促進しよう
- 2.1 データ分析基盤の基本型 基本的な構成パターンの紹介
- 2.2 本書におけるローカル環境の構成 本書で扱うローカル環境を理解しよう
- 2.3 バッチでのデータの流れを体験しよう 基本的なデータの流れを理解しよう
- 2.4 ストリーミングでのデータの流れを体験しよう 応用的なデータの流れも確認しよう
- 2.5 データパイプラインの設計 よいデータパイプラインを設計しよう
- 2.6 簡単な保守運用を学んでおこう 分散系プロダクトとそれ以外との方法の違いに注目
- 2.7 本章のまとめ
第3章 バッチデータパイプライン バッチ処理の基本と実践
- 3.1 データ取り込みの基本 ETLのE(Extract)
- 3.2 API利用によるデータ収集 手軽さに隠れた罠に気を付けよう
- 3.3 バッチトランスフォーム ETLのT(Transform)
- 3.4 バッチパイプラインのパフォーマンス向上 簡単な最適化から始めよう
- 3.5 データ更新モデル ETLのL(Load)
- 3.6 データモデリング ユーザーとデータの接点を作ろう
- 3.7 バッチパイプラインとセキュリティ セキュリティ要件を満たし安心してデータを活用しよう
- 3.8 バッチパイプラインとプライバシー プライバシー要件を満たし安心してデータを活用しよう
- 3.9 本章のまとめ
第4章 ストリーミングデータパイプライン バッチの知識をもとにストリーミング固有の問題に対処しよう
- 4.1 ストリーミングによるデータ収集とデータ処理 リアルタイム性と戦うための基本を理解しよう
- 4.2 ストリーミングパイプラインのパフォーマンス安定化 簡単な最適化から始めよう
- 4.3 ストリーミングにおけるセキュリティ ストリーミング固有の問題に注目しよう
- Column ログの収集とストリーミング処理 ログ収集にも使えるのか?
- 4.4
- 4.5 ストリーミングパイプラインと信頼性の向上 パイプラインの信頼性向上を支える方法を知ろう
- 4.6 アクセスレイヤーとの連携 リアルタイムデータの出口を用意しよう
- 4.7 本章のまとめ
第5章 データパイプラインとアドオン機能 多機能なパイプラインを実装しよう
- 5.1 プラットフォームとシステム間転送 データを間違いなく届けよう
- 5.2 プラットフォームとシステム間連携 データ活用のエコシステムを広げよう
- 5.3 多彩なデータ活用 データ活用の中核に目を向けよう
- 5.4 セマンティックレイヤー(層)の構築 データ利用における不確実性を下げよう
- 5.5 データのライフサイクル管理 データ保持の法規制・コスト・リスク・活用価値のバランスを図ろう
- 5.6 本章のまとめ
第6章 データパイプラインとデータ品質管理 データとデータ品質を相互運用しよう
- 6.1 ディテクトとしてのデータ調査 データを調査して隠された真実を探そう
- 6.2 プリベンションとしてのルール作り 最初に防げば一番効率が良い
- 6.3 リペア(Repair)としての(メタ)データの修正 データをあるべき形にしよう
- 6.4 本章のまとめ
第7章 データパイプラインとメタデータ管理 データとメタデータを相互運用しよう
- 7.1 ビジネスメタデータ ビジネスのドメイン知識を表現しよう
- 7.2 メタストアとスケーラビリティ メタデータがたまる場所にも目を向けよう
- 7.3 テクニカルメタデータの取得 技術的なドメイン知識を表現しよう
- 7.4 オペレーショナルメタデータの取得 ガバナンスのためのメタデータを整理しよう
- 7.5 本章のまとめ
第8章 データ分析基盤と開発プロセス 環境を整えて活動のスピードを上げよう
- 8.1 データ分析基盤と開発プロセス データ分析基盤を取り巻く開発について準備しよう
- 8.2 インフラによるリソースの安定化 改善のための時間を稼ごう
- 8.3 データ分析基盤の監視とデータオブザーバビリティ データ分析基盤の監視,管理,回復を効率的に行おう
- 8.4 データ分析基盤とマイグレーション/アップデート データ分析基盤のお引越しを安全に行おう
- 8.5 データ分析基盤とユーザビリティ “使える”データ分析基盤を目指そう
- 8.6 サービス(プロダクト)の選定 プロダクトの本質を見抜こう
- 8.7 本章のまとめ
第9章 データマネジメントとドキュメンテーション データ分析基盤の秩序と活動方針を言語化しよう
- 9.1 ドキュメンテーションを通したコンテキスト整理 ドキュメント文化を根付かせ長期の運用に備えよう
- 9.2 データマネジメント 多くの人と組織を巻き込み最適化を目指そう
- 9.3 データ分析基盤の分離 ガバナンスと技術を駆使してより高度でスケーラブルな環境を目指そう
- 9.4 本章のまとめ
第10章 データ分析基盤とパブリッククラウド クラウドでデータ分析基盤をシンプルにすばやく構築する
- 10.1 オンプレとパブリッククラウドの比較 クラウドを利用する際の前提となるマインドを確認しよう
- 10.2 クラウドネイティブ クラウドの力を大いに活かすためのポイントを確認しよう
- Column 再現性とコード
- 10.3 本章のまとめ
第11章 シンプル構成で始めるクラウド分析基盤 最小限の構成で体験するクラウド分析基盤
- 11.1 クラウド上のデータ分析基盤を確認しよう 見比べて考えるクラウド環境での特徴と利便性
- 11.2 データ(分析基盤)の資産化 価値を見せる工夫をしよう
- 11.3 監査ログ(アクセスログ)の保守・運用 ログの取得と活用で不測の事態に備えよう
- 11.4 本章のまとめ
第12章 データ分析基盤と機械学習(ML)モデル データをもとにモデルを作成する活動についても知ろう
- 12.1 PIIモデルによる機微情報の検知 事前学習済みのモデルの利用と現実を理解しよう
- 12.2 MLモデルを開発してみよう モデルの開発もデータエンジニアリングの一環として理解しよう
- 12.3 本章のまとめ