Google Cloudではじめる実践データエンジニアリング入門 [業務で使えるデータ基盤構築]
- 下田倫大,寳野雄太,饗庭秀一郎,吉田啓二 著
- 定価
- 3,740円(本体3,400円+税10%)
- 発売日
- 2021.2.20[在庫なし] 2021.2.18
- 判型
- B5変形
- 頁数
- 440ページ
- ISBN
- 978-4-297-11948-5 978-4-297-11949-2
サポート情報
概要
AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデータ領域に強みがある,あるいは,BigQueryは高速に動作するデータウェアハウスである,と聞いたことがある方は多いでしょう。
本書では「データ基盤」そのものを体系的に整理しながら,Google Cloudの各サービスをどのように活用することで実用的なデータ基盤を構築できるか,また発展的なデータ分析ニーズに応えるデータ基盤をどのように設計できるか,といった点について解説しています。 特にGoogle Cloudはマネージドサービスを中心として提供されているため,その特性を正しくとらえることで,最大限の価値を発揮できるようになります。 実際にGoogle Cloudやオンプレミス,他のクラウドサービスを用いたデータ基盤の構築や設計に携わってきた筆者らによる一歩踏み込んだ解説が本書の特徴です。
本書は以下のような方におすすめです。
- これからデータ基盤の構築に関わる可能性があるエンジニア
- Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方
また,すでにGoogle Cloudを利用しているエンジニアやデータ基盤に携わっているエンジニアにとっても,より洗練されたデータ基盤の設計を行うための知識やノウハウを得ることができるでしょう。
本書は近年のビジネス要件の変化からデータ基盤に求められる要件,一般的なデータ基盤のアーキテクチャを紹介した後,Google Cloudでの設計として以下のようなトピックを取り扱います。
- データウェアハウス
- データレイク/ETL/ELT
- データパイプラインマネジメント/データ統合
- データ基盤のセキュリティとコスト管理(アクセス制御,データ持ち出しの防止,重要データ検知)
- BI,データの可視化
- 発展的な分析(地理情報分析,機械学習,リアルタイム分析)
こんな方にオススメ
- これからデータ基盤の構築に関わる可能性があるエンジニア,Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方
目次
第1章 データ基盤の概要
- 1.1 データ基盤に取り組む意義
- 1.2 データ基盤とは
- 1.3 Google Cloud上で構築するデータ基盤
- 1.4 まとめ
第2章 BigQueryのコンセプトと利用方法
- 2.1 DWHとは
- 2.2 Googleのデータ処理を支える技術
- 2.3 BigQueryの内部アーキテクチャを理解する
- 2.4 DWHとしてのBigQueryの基本操作
- 2.5 BigQueryユーザー向けのクエリの最適化
- 2.6 まとめ
第3章 データウェアハウスの構築
- 3.1 データウェアハウスに求められるさまざまな要件
- 3.2 高可用性,Disaster Recovery計画
- 3.3 用途別の影響隔離
- 3.4 サイジング
- 3.5 目的環境別の影響隔離
- 3.6 テーブルを設計する
- 3.7 データの投入
- 3.8 バックアップとリストア
- 3.9 BigQueryにおけるトランザクションとパーティションを用いたDMLの最適化
- 3.10 DMLをまとめる/パーティションの利用
- 3.11 外部接続の最適化 - Storage APIの利用とBI Engineの利用
- 3.12 データマートジョブの設計最適化
- 3.13 まとめ
- Column マルチクラウドでのクラウドデータ基盤の利用
第4章 データレイクの構築
- 4.1 データレイクとは
- 4.2 Hadoopとは
- 4.3 Google Cloudで構築するデータレイク
- 4.4 Google Cloudのおもなデータレイク関連のサービス
- 4.5 Google Cloudでデータレイクを中心としたデータ分析基盤を構築することのメリット
- 4.6 オンプレミス環境からGoogle Cloudへのデータレイクの移行
- 4.7 まとめ
第5章 ETL/ELT処理
- 5.1 ETL/ELTとは
- 5.2 ETL/ELT 処理を実施するサンプルシナリオ
- 5.3 サンプルシナリオ実施用の環境の構築
- 5.4 BigQueryでのELT
- 5.5 BigQueryでのETL
- 5.6 DataflowでのETL
- 5.7 DataprocでのETL
- 5.8 サンプルシナリオ実施用の環境の破棄
- 5.9 その他のETL/ELT処理の実施方法
- 5.10 ETLとELTの各手法の使い分け
- 5.11 まとめ
- Column Apache BeamとDataflow の関係は?
第6章 ワークフロー管理とデータ統合
- 6.1 Google Cloudのワークフロー管理とデータ統合のためのサービス
- 6.2 Cloud Composerの特徴
- 6.3 Cloud Composerでのワークフロー管理
- 6.4 Cloud Data Fusionの特徴
- 6.5 Cloud Data Fusionでのワークフロー管理
- 6.6 Cloud ComposerとCloud Data Fusionの比較と使い分けのポイント
- 6.7 まとめ
- Column Google Cloudにおけるジョブオーケストレーションの選択肢
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
- 7.1 Google Cloud Platformのセキュリティサービス
- 7.2 Google Cloudのリソース構成とエンタープライズ向けの管理機能
- 7.3 IAMを利用したBigQueryのアクセス制御
- 7.4 IAMとAccess Control List(ACL)を利用したCloud Storageのアクセス制御
- 7.5 VPC Service Controlsを利用したアクセス制御とデータ持ち出し防止
- 7.6 監査
- 7.7 Security Command Centerを利用したデータリスクの検知と自動修復
- 7.8 組織のポリシーサービスの適用
- 7.9 アクセス管理とコスト管理の設計
- 7.10 まとめ
- Column データ暗号化とデータ損失防止
第8章 BigQuery へのデータ集約
- 8.1 BigQueryへデータ集約を行うメリット
- 8.2 BigQueryへのデータ集約の方法
- 8.3 BigQuery Data Transfer Service(BigQuery DTS)
- 8.4 BigQueryへのデータパイプライン構築
- 8.5 サービス間連携によるBigQueryへのデータ連携
- 8.6 まとめ
- Column BigQueryのデータ取り込み方法の使い分け
- Column Firebaseを用いたデータ分析の活用方法
第9章 ビジネスインテリジェンス
- 9.1 BIとBIツール
- 9.2 コネクテッドシート
- 9.3 データポータル
- 9.4 Looker
- 9.5 BIツールと親和性の高いBigQueryの機能
- 9.6 まとめ
第10章 リアルタイム分析
- 10.1 リアルタイム分析とユースケース
- 10.2 リアルタイム分析基盤に求められるもの
- 10.3 Google Cloudを利用したリアルタイム分析基盤のアーキテクチャ
- 10.4 Pub/Sub
- 10.5 Dataflow
- 10.6 BigQuery
- 10.7 リアルタイムタクシーデータを用いたリアルタイム分析基盤の構築
- 10.8 まとめ
- Column Dataflow のアーキテクチャと分散処理におけるコンピュート,ストレージ,メモリの分離
第11章 発展的な分析
- 11.1 Google Cloudによる発展的な分析
- 11.2 BigQueryによる地理情報分析
- 11.3 BigQuery上での機械学習
- 11.4 AutoML Tables
- 11.5 AI Platformを活用したデータサイエンスと機械学習
- 11.6 まとめ
- Column Pub/Subのアーキテクチャ
プロフィール
下田倫大
Google CloudのCustomer Engineer。Web系企業の研究開発職,データ分析企業のエンジニアマネジャーを経て2017年より現職。
テクノロジーを活用したデータの価値創出に興味があり,興味の赴くままに仕事をしていると気づいたらクラウドプラットフォーマーに所属していた。現在は,小売業界のお客様を中心にGoogle Cloudの導入や活用をお手伝いしており,データ基盤のお仕事が多め。BigQuery以外で好きなGoogle CloudのプロダクトはDataflowとDataproc。
Dataflowはもっと活用が広がってもいいし,Dataprocはもっと評価されてもいいと常々思っている。
寳野雄太
Google CloudのCustomer Engineering Solution&Technology部門の技術部長(Analytics&DB)を務める。日系通信会社でPdMとして意思決定のためのデータ基盤を作ったり,エンジニアとしてさまざまなサービスのマイグレーションをしているうち,データ活用の魅力に惹かれ入社。Google Cloud東京リージョン立ち上げから在籍し,さまざまなお客様のデータ基盤構築立案,構築支援をしながらBigQuery東京リージョンのローンチなどのプロジェクトに携わる。2019年より現職。
現在は日本におけるアナリティクスとデータベース技術統括の傍ら,社内の意思決定のためのデータマートの整備もやっているBigQueryヘビーユーザー。好きなプロダクトはData Catalog。メタデータ管理がBigQueryの自動補完と連携するのはアツいと感じている。
饗庭秀一郎
Google CloudのCustomer Engineer Data Analytics Specialist。モビリティ系ベンチャー企業でBigQueryを用いた分析基盤の構築と運用や分析業務に携わった後,2020年より現職。
自分の興味が技術の仕組みや中身からいかにビジネスに活かすかに移るにつれ,キャリアも研究開発からシステム開発,データ分析,プリセールス技術支援へと変わってきました。現在は,データ分析の領域に特化してお客様のビジネスを加速するクラウド活用のお手伝いをしています。BigQuery以外で好きなGoogle Cloudのサービスは,Cloud Shellです。ユーザとして,Google Cloudに出会ったときからこの便利さに常に魅了されてきました。
吉田啓二
オープンソース ソフトウェアを活用したデータ分析プラットフォームを提供している企業の Solutions Architect。
Web 系企業でのデータ エンジニア,Google Cloud での Data Analytics Specialist を経て,2020 年より現職。
Google Cloud 在籍時には,主にゲームやメディア業界のお客様へ,Google Cloud のデータ分析ソリューションの提案や導入,活用支援を実施。好きなプロダクトは,Google アナリティクス,Firebase,BigQuery,AI Platform,Google 広告など。Google と Google Cloud のフルマネージドなプロダクトを組み合わせることで,データ基盤の運用保守コストを削減しながら,データの収集,蓄積,処理,分析,活用を,一気通貫で効率的に実施できることに魅力を感じている。