書籍概要

Tech × Books plus

[エンジニアのための]データ分析基盤入門<実践編> 主要プロダクトに共通する理論×技術 クラウド&オンプレ対応

著者
発売日
更新日

概要

より多くのビジネス成果を生み出すデータ分析基盤(データ基盤)の構築・運用をテーマとした技術解説書。『[エンジニアのための]データ分析基盤入門<基本編>』の続編として,現場で求められる設計判断や運用視点を整理しました。

現実のデータ分析基盤には,技術・組織・コスト・安全性・拡張性など,多様なコンテキストが複雑に絡み合います。本書では,基本事項や手順と合わせて,SLO設計,データ加工戦略,フェデレーション環境におけるネットワーク負荷など,具体的な観点を織り込みました。

「何の技術を採用するか」以上に,重要なのは「どの課題を,どんな視点で捉えるか」。本書は,無数に答えがあるデータエンジニアリングの現場において,課題構造を理解し,状況に応じて最適な選択を行い続けるための考え方を押さえます。また,ローカル環境およびクラウド環境で動作する学習用データ分析基盤の構築例を提供し,本を読むだけでも,実機で試しながらでも学べる構成です。

データ基盤は,作るよりも「続ける」なかで真価が問われると言われます。広くデータ基盤に携わる方々に向けて,変化し続けるプラットフォームと向き合うためのデータエンジニアリングの思考と技術力が身につく1冊です。

こんな方におすすめ

  • データ活用のために,データ分析基盤の開発に携わっているエンジニア
  • クラウド,機械学習/AIをはじめ,データ分析基盤&データマネージメントにまつわる実践知識をアップデートしたい方々
  • データ分析基盤を利用して分析を行い,より良いデータ活用環境を実現したいとお考えのユーザーの方々
  • データ分析基盤に関心をお持ちのインフラエンジニア,プログラマ,データ分析者

関連サイト

著者の斎藤友樹氏によるサポートページは,次のとおりです。

https://yk-st.github.io/data-platform-in-action-support-page/

サンプル

samplesamplesamplesamplesample

目次

第1章 データ分析基盤への招待 データ分析基盤の大枠を知ろう

  • 1.1 データ分析基盤と技術ランドスケープ プラットフォームを支える群雄割拠のツールたち
  • 1.2 データ分析システムとデータ分析基盤 システムとプラットフォームの違いを理解しよう
  • 1.3 本章のまとめ

第2章 ローカル端末で学ぶデータ分析基盤 ローカルのデータ分析基盤を利用して理解を促進しよう

  • 2.1 データ分析基盤の基本型 基本的な構成パターンの紹介
  • 2.2 本書におけるローカル環境の構成 本書で扱うローカル環境を理解しよう
  • 2.3 バッチでのデータの流れを体験しよう 基本的なデータの流れを理解しよう
  • 2.4 ストリーミングでのデータの流れを体験しよう 応用的なデータの流れも確認しよう
  • 2.5 データパイプラインの設計 よいデータパイプラインを設計しよう
  • 2.6 簡単な保守運用を学んでおこう 分散系プロダクトとそれ以外との方法の違いに注目
  • 2.7 本章のまとめ

第3章 バッチデータパイプライン バッチ処理の基本と実践

  • 3.1 データ取り込みの基本 ETLのE(Extract)
  • 3.2 API利用によるデータ収集 手軽さに隠れた罠に気を付けよう
  • 3.3 バッチトランスフォーム  ETLのT(Transform)
  • 3.4 バッチパイプラインのパフォーマンス向上 簡単な最適化から始めよう
  • 3.5 データ更新モデル ETLのL(Load)
  • 3.6 データモデリング ユーザーとデータの接点を作ろう
  • 3.7 バッチパイプラインとセキュリティ セキュリティ要件を満たし安心してデータを活用しよう
  • 3.8 バッチパイプラインとプライバシー プライバシー要件を満たし安心してデータを活用しよう
  • 3.9 本章のまとめ

第4章 ストリーミングデータパイプライン バッチの知識をもとにストリーミング固有の問題に対処しよう

  • 4.1 ストリーミングによるデータ収集とデータ処理 リアルタイム性と戦うための基本を理解しよう
  • 4.2 ストリーミングパイプラインのパフォーマンス安定化 簡単な最適化から始めよう
  • 4.3 ストリーミングにおけるセキュリティ ストリーミング固有の問題に注目しよう
  • Column ログの収集とストリーミング処理 ログ収集にも使えるのか?
  • 4.4 
  • 4.5 ストリーミングパイプラインと信頼性の向上 パイプラインの信頼性向上を支える方法を知ろう
  • 4.6 アクセスレイヤーとの連携 リアルタイムデータの出口を用意しよう
  • 4.7 本章のまとめ

第5章 データパイプラインとアドオン機能 多機能なパイプラインを実装しよう

  • 5.1 プラットフォームとシステム間転送 データを間違いなく届けよう
  • 5.2 プラットフォームとシステム間連携 データ活用のエコシステムを広げよう
  • 5.3 多彩なデータ活用 データ活用の中核に目を向けよう
  • 5.4 セマンティックレイヤー(層)の構築 データ利用における不確実性を下げよう
  • 5.5 データのライフサイクル管理 データ保持の法規制・コスト・リスク・活用価値のバランスを図ろう
  • 5.6 本章のまとめ

第6章 データパイプラインとデータ品質管理 データとデータ品質を相互運用しよう

  • 6.1 ディテクトとしてのデータ調査 データを調査して隠された真実を探そう
  • 6.2 プリベンションとしてのルール作り 最初に防げば一番効率が良い
  • 6.3 リペア(Repair)としての(メタ)データの修正 データをあるべき形にしよう
  • 6.4 本章のまとめ

第7章 データパイプラインとメタデータ管理 データとメタデータを相互運用しよう

  • 7.1 ビジネスメタデータ ビジネスのドメイン知識を表現しよう
  • 7.2 メタストアとスケーラビリティ メタデータがたまる場所にも目を向けよう
  • 7.3 テクニカルメタデータの取得 技術的なドメイン知識を表現しよう
  • 7.4 オペレーショナルメタデータの取得 ガバナンスのためのメタデータを整理しよう
  • 7.5 本章のまとめ

第8章 データ分析基盤と開発プロセス 環境を整えて活動のスピードを上げよう

  • 8.1 データ分析基盤と開発プロセス データ分析基盤を取り巻く開発について準備しよう
  • 8.2 インフラによるリソースの安定化 改善のための時間を稼ごう
  • 8.3 データ分析基盤の監視とデータオブザーバビリティ データ分析基盤の監視,管理,回復を効率的に行おう
  • 8.4 データ分析基盤とマイグレーション/アップデート データ分析基盤のお引越しを安全に行おう
  • 8.5 データ分析基盤とユーザビリティ “使える”データ分析基盤を目指そう
  • 8.6 サービス(プロダクト)の選定 プロダクトの本質を見抜こう
  • 8.7 本章のまとめ

第9章 データマネジメントとドキュメンテーション データ分析基盤の秩序と活動方針を言語化しよう

  • 9.1 ドキュメンテーションを通したコンテキスト整理 ドキュメント文化を根付かせ長期の運用に備えよう
  • 9.2 データマネジメント 多くの人と組織を巻き込み最適化を目指そう
  • 9.3 データ分析基盤の分離 ガバナンスと技術を駆使してより高度でスケーラブルな環境を目指そう
  • 9.4 本章のまとめ

第10章 データ分析基盤とパブリッククラウド クラウドでデータ分析基盤をシンプルにすばやく構築する

  • 10.1 オンプレとパブリッククラウドの比較 クラウドを利用する際の前提となるマインドを確認しよう
  • 10.2 クラウドネイティブ クラウドの力を大いに活かすためのポイントを確認しよう
  • Column 再現性とコード
  • 10.3 本章のまとめ

第11章 シンプル構成で始めるクラウド分析基盤 最小限の構成で体験するクラウド分析基盤

  • 11.1 クラウド上のデータ分析基盤を確認しよう 見比べて考えるクラウド環境での特徴と利便性
  • 11.2 データ(分析基盤)の資産化 価値を見せる工夫をしよう
  • 11.3 監査ログ(アクセスログ)の保守・運用 ログの取得と活用で不測の事態に備えよう
  • 11.4 本章のまとめ

第12章 データ分析基盤と機械学習(ML)モデル データをもとにモデルを作成する活動についても知ろう

  • 12.1 PIIモデルによる機微情報の検知 事前学習済みのモデルの利用と現実を理解しよう
  • 12.2 MLモデルを開発してみよう モデルの開発もデータエンジニアリングの一環として理解しよう
  • 12.3 本章のまとめ

サポート

現在サポート情報はありません。

商品一覧