Tech × Books plus
[エンジニアのための]データ分析基盤入門<実践編> 主要プロダクトに共通する理論×技術クラウド&オンプレ対応
- 斎藤友樹 著
- 定価
- 3,630円(本体3,300円+税10%)
- 発売日
- 2026.4.20
- 判型
- B5変形
- 頁数
- 336ページ
- ISBN
- 978-4-297-15499-8 978-4-297-15500-1
サポート情報
概要
より多くのビジネス成果を生み出すデータ分析基盤(データ基盤)の構築・運用をテーマとした技術解説書。『[エンジニアのための]データ分析基盤入門<基本編>』の続編として、現場で求められる設計判断や運用視点を整理しました。
現実のデータ分析基盤には、技術・組織・コスト・安全性・拡張性など、多様なコンテキストが複雑に絡み合います。本書では、基本事項や手順と合わせて、SLO設計、データ加工戦略、フェデレーション環境におけるネットワーク負荷など、具体的な観点を織り込みました。
「何の技術を採用するか」以上に、重要なのは「どの課題を、どんな視点で捉えるか」。本書は、無数に答えがあるデータエンジニアリングの現場において、課題構造を理解し、状況に応じて最適な選択を行い続けるための考え方を押さえます。また、ローカル環境およびクラウド環境で動作する学習用データ分析基盤の構築例を提供し、本を読むだけでも、実機で試しながらでも学べる構成です。
データ基盤は、作るよりも「続ける」なかで真価が問われると言われます。広くデータ基盤に携わる方々に向けて、変化し続けるプラットフォームと向き合うためのデータエンジニアリングの思考と技術力が身につく1冊です。
こんな方にオススメ
- データ活用のために、データ分析基盤の開発に携わっているエンジニア
- クラウド、機械学習/AIをはじめ、データ分析基盤&データマネージメントにまつわる実践知識をアップデートしたい方々
- データ分析基盤を利用して分析を行い、より良いデータ活用環境を実現したいとお考えのユーザーの方々
- データ分析基盤に関心をお持ちのインフラエンジニア、プログラマ、データ分析者
目次
第1章 データ分析基盤への招待 データ分析基盤の大枠を知ろう
- 1.1 データ分析基盤と技術ランドスケープ プラットフォームを支える群雄割拠のツールたち
- 1.2 データ分析システムとデータ分析基盤 システムとプラットフォームの違いを理解しよう
- 1.3 本章のまとめ
第2章 ローカル端末で学ぶデータ分析基盤 ローカルのデータ分析基盤を利用して理解を促進しよう
- 2.1 データ分析基盤の基本型 基本的な構成パターンの紹介
- 2.2 本書におけるローカル環境の構成 本書で扱うローカル環境を理解しよう
- 2.3 バッチでのデータの流れを体験しよう 基本的なデータの流れを理解しよう
- 2.4 ストリーミングでのデータの流れを体験しよう 応用的なデータの流れも確認しよう
- 2.5 データパイプラインの設計 よいデータパイプラインを設計しよう
- 2.6 簡単な保守運用を学んでおこう 分散系プロダクトとそれ以外との方法の違いに注目
- 2.7 本章のまとめ
第3章 バッチデータパイプライン バッチ処理の基本と実践
- 3.1 データ取り込みの基本 ETLのE(Extract)
- 3.2 API利用によるデータ収集 手軽さに隠れた罠に気を付けよう
- 3.3 バッチトランスフォーム ETLのT(Transform)
- 3.4 バッチパイプラインのパフォーマンス向上 簡単な最適化から始めよう
- 3.5 データ更新モデル ETLのL(Load)
- 3.6 データモデリング ユーザーとデータの接点を作ろう
- 3.7 バッチパイプラインとセキュリティ セキュリティ要件を満たし安心してデータを活用しよう
- 3.8 バッチパイプラインとプライバシー プライバシー要件を満たし安心してデータを活用しよう
- 3.9 本章のまとめ
第4章 ストリーミングデータパイプライン バッチの知識をもとにストリーミング固有の問題に対処しよう
- 4.1 ストリーミングによるデータ収集とデータ処理 リアルタイム性と戦うための基本を理解しよう
- 4.2 ストリーミングパイプラインのパフォーマンス安定化 簡単な最適化から始めよう
- 4.3 ストリーミングにおけるセキュリティ ストリーミング固有の問題に注目しよう
- Column ログの収集とストリーミング処理 ログ収集にも使えるのか?
- 4.4
- 4.5 ストリーミングパイプラインと信頼性の向上 パイプラインの信頼性向上を支える方法を知ろう
- 4.6 アクセスレイヤーとの連携 リアルタイムデータの出口を用意しよう
- 4.7 本章のまとめ
第5章 データパイプラインとアドオン機能 多機能なパイプラインを実装しよう
- 5.1 プラットフォームとシステム間転送 データを間違いなく届けよう
- 5.2 プラットフォームとシステム間連携 データ活用のエコシステムを広げよう
- 5.3 多彩なデータ活用 データ活用の中核に目を向けよう
- 5.4 セマンティックレイヤー(層)の構築 データ利用における不確実性を下げよう
- 5.5 データのライフサイクル管理 データ保持の法規制・コスト・リスク・活用価値のバランスを図ろう
- 5.6 本章のまとめ
第6章 データパイプラインとデータ品質管理 データとデータ品質を相互運用しよう
- 6.1 ディテクトとしてのデータ調査 データを調査して隠された真実を探そう
- 6.2 プリベンションとしてのルール作り 最初に防げば一番効率が良い
- 6.3 リペア(Repair)としての(メタ)データの修正 データをあるべき形にしよう
- 6.4 本章のまとめ
第7章 データパイプラインとメタデータ管理 データとメタデータを相互運用しよう
- 7.1 ビジネスメタデータ ビジネスのドメイン知識を表現しよう
- 7.2 メタストアとスケーラビリティ メタデータがたまる場所にも目を向けよう
- 7.3 テクニカルメタデータの取得 技術的なドメイン知識を表現しよう
- 7.4 オペレーショナルメタデータの取得 ガバナンスのためのメタデータを整理しよう
- 7.5 本章のまとめ
第8章 データ分析基盤と開発プロセス 環境を整えて活動のスピードを上げよう
- 8.1 データ分析基盤と開発プロセス データ分析基盤を取り巻く開発について準備しよう
- 8.2 インフラによるリソースの安定化 改善のための時間を稼ごう
- 8.3 データ分析基盤の監視とデータオブザーバビリティ データ分析基盤の監視、管理、回復を効率的に行おう
- 8.4 データ分析基盤とマイグレーション/アップデート データ分析基盤のお引越しを安全に行おう
- 8.5 データ分析基盤とユーザビリティ “使える”データ分析基盤を目指そう
- 8.6 サービス(プロダクト)の選定 プロダクトの本質を見抜こう
- 8.7 本章のまとめ
第9章 データマネジメントとドキュメンテーション データ分析基盤の秩序と活動方針を言語化しよう
- 9.1 ドキュメンテーションを通したコンテキスト整理 ドキュメント文化を根付かせ長期の運用に備えよう
- 9.2 データマネジメント 多くの人と組織を巻き込み最適化を目指そう
- 9.3 データ分析基盤の分離 ガバナンスと技術を駆使してより高度でスケーラブルな環境を目指そう
- 9.4 本章のまとめ
第10章 データ分析基盤とパブリッククラウド クラウドでデータ分析基盤をシンプルにすばやく構築する
- 10.1 オンプレとパブリッククラウドの比較 クラウドを利用する際の前提となるマインドを確認しよう
- 10.2 クラウドネイティブ クラウドの力を大いに活かすためのポイントを確認しよう
- Column 再現性とコード
- 10.3 本章のまとめ
第11章 シンプル構成で始めるクラウド分析基盤 最小限の構成で体験するクラウド分析基盤
- 11.1 クラウド上のデータ分析基盤を確認しよう 見比べて考えるクラウド環境での特徴と利便性
- 11.2 データ(分析基盤)の資産化 価値を見せる工夫をしよう
- 11.3 監査ログ(アクセスログ)の保守・運用 ログの取得と活用で不測の事態に備えよう
- 11.4 本章のまとめ
第12章 データ分析基盤と機械学習(ML)モデル データをもとにモデルを作成する活動についても知ろう
- 12.1 PIIモデルによる機微情報の検知 事前学習済みのモデルの利用と現実を理解しよう
- 12.2 MLモデルを開発してみよう モデルの開発もデータエンジニアリングの一環として理解しよう
- 12.3 本章のまとめ
プロフィール
斎藤友樹
SIerで官公庁、年金、広告などのシステムの要件定義〜保守運用まで、SEやマネージャーとしてフロントエンド〜サーバーサイドまでひととおり経験。現在は、事業会社にてビッグデータ分析に関するシステムの構築、蓄積したデータの活用を行う仕事に従事している。直近では利用者が数千万を超える環境で、ストリーミングデータの処理や一日あたり5000超のETLジョブを捌くデータ分析基盤のアーキテクチャ設計やデータ活用のためのしくみ作りを担当。また、AWSなどのパブリッククラウドイベントの登壇などを通して積極的に情報発信を行っている。