エンジニア選書 実践Apache Iceberg —⁠— 高効率・高生産性を実現するデータ基盤の構築と運用

「実践Apache Iceberg」のカバー画像
著者
田中智大たなかともひろ疋田宗太郎ひきたそうたろう 著
定価
4,400円(本体4,000円+税10%)
発売日
2025.8.27
判型
B5変形
頁数
576ページ
ISBN
978-4-297-15074-7

概要

Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。本書では、データレイク構築に関する基本的な考え方やIcebergを使うことのメリットといった基本から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。

こんな方にオススメ

  • データ基盤の開発・運用に携わるエンジニア
  • これからデータ基盤を作りたいエンジニア

目次

[第1部]Apache Icebergの基本

第1章:データレイクの課題とApache Iceberg

  • Icebergというテーブルフォーマット
  • データレイクのコンセプト
  • データレイクの構成要素
  • Iceberg登場以前のデータレイクの課題
  • Icebergによるデータレイクの課題解決
  • データ基盤におけるIcebergの役割
  • Icebergを導入する際の注意点

第2章:Apache Icebergの仕組みと機能

  • 「Iceberg」が指すもの
  • Icebergテーブルの構造
  • 代表的なクエリのライフサイクル
  • タイムトラベルとロールバックによるデータ復元
  • トランザクション分離レベルと同時実行制御
  • スキーマ定義
  • ソート順の進化
  • Icebergにおけるパーティショニング
  • ビュー
  • テーブルフォーマットバージョン3

第3章:Icebergカタログとストレージ

  • 「カタログ」と「ストレージ」という重要概念
  • さまざまなIcebergカタログ
  • Icebergのストレージ
  • Icebergカタログおよびストレージ実装の設定

[第2部]分散クエリエンジンでの利用

第4章:Apache Spark

  • Apache Sparkの概要
  • Sparkでデータ処理を実行する
  • Icebergの利用を開始する
  • Icebergを利用する際のパラメータ設定
  • 基本的なIceberg機能の利用
  • 高度なIceberg機能の利用
  • ストリーミングでの利用

第5章:Apache Flink

  • Apache Flinkの概要
  • Flinkでデータ処理を実行する
  • Icebergの利用を開始する
  • 基本的なIceberg機能の利用
  • 高度なIceberg機能の利用

第6章:Trino

  • Trinoの概要
  • Trinoでデータ処理を実行する
  • Icebergの利用を開始する
  • DDL(Data Definition Language)
  • DML(Data Manipulation Language)

第7章:Apache Hive

  • Apache Hiveの概要
  • Hiveでデータ処理を実行する
  • Icebergの利用を開始する
  • Hiveで実行できるIcebergの機能
  • DDL(Data Definition Language)
  • DML(Data Manipulation Language)

第8章:PyIceberg

  • PyIcebergの概要
  • PyIcebergの基本的な使い方
  • 発展的な活用法
  • PyIcebergの設定とCLI
  • PyIcebergの制約

[第3部]ユースケースと応用

第9章:ユースケースとソリューションパターン

  • 本章で紹介するユースケースについて
  • 基本的なデータ分析パイプラインの構築
  • Change Data Captureによるリアルタイムデータ同期
  • SCD Type 2による履歴管理
  • Write-Audit-Publishパターンによるデータ品質管理
  • ストリーミング処理とスキーマ進化

第10章:AWSでIcebergを活用する

  • データ基盤にAWSを活かす
  • Icebergのデータを保存するストレージ
  • Icebergカタログ
  • データ収集の仕組み
  • Icebergテーブルを活用するためのエンジン
  • セキュリティとガバナンス

第11章:運用管理

  • 代表的な運用管理タスク
  • データライフサイクル管理
  • コンパクションの実行
  • モニタリング

第12章:パフォーマンス最適化

  • 「パフォーマンス最適化」の種類
  • 基本的なクエリパフォーマンス最適化手法
  • 基本的な書き込みパフォーマンス最適化手法
  • 高度なクエリパフォーマンス最適化手法
  • 高度な書き込みパフォーマンス最適化手法
  • ストレージパーティション結合の利用

第13章:Icebergへの移行戦略とパターン

  • 移行を検討する際のステップ
  • Icebergの導入目的の確認
  • 移行対象の整理
  • 移行戦略の策定
  • コンポーネントごとの移行の実施
  • データ移行のアプローチ
  • シナリオ別の移行アプローチ

プロフィール

田中智大たなかともひろ

アマゾン ウェブ サービス ジャパン合同会社 サポートエンジニアリングチームに所属。2017年にAWSにジョインし、ビッグデータに関連するサービスについて、日々お客様の技術的課題の解決に取り組んでいる。最近はApache Iceberg OSSへの貢献をはじめ、海外カンファレンスでの登壇などコミュニティ活動にも積極的に参加している。

疋田宗太郎ひきたそうたろう

アマゾン ウェブ サービス ジャパン合同会社所属。SI企業でエンタープライズITに向けた市場取引システムやデータ分析基盤の構築、運用に従事。AWSではデータ分析基盤の構想策定から具体的な実装支援までを行う。巨大なデータを効率よく柔軟に扱う技術と、それを支えるOSSに関心があり、Apache IcebergやOpenSearchを好む。