エンジニア選書実践Apache Iceberg —⁠—高効率・高生産性を実現するデータ基盤の構築と運用

著者: 田中智大（たなかともひろ），疋田宗太郎（ひきたそうたろう）　著
定価: 4,400円（本体4,000円＋税10%）
発売日: 2025.8.27
判型: B5変形
頁数: 576ページ
ISBN: 978-4-297-15074-7 978-4-297-15075-4

サポート情報

お問い合わせ
本書関連のお問い合わせ

概要

Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。本書では、データレイク構築に関する基本的な考え方やIcebergを使うことのメリットといった基本から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。

こんな方にオススメ

データ基盤の開発・運用に携わるエンジニア
これからデータ基盤を作りたいエンジニア

「Iceberg」が指すもの
Icebergテーブルの構造
代表的なクエリのライフサイクル
タイムトラベルとロールバックによるデータ復元
トランザクション分離レベルと同時実行制御
スキーマ定義
ソート順の進化
Icebergにおけるパーティショニング
ビュー
テーブルフォーマットバージョン3

第3章：Icebergカタログとストレージ

「カタログ」と「ストレージ」という重要概念
さまざまなIcebergカタログ
Icebergのストレージ
Icebergカタログおよびストレージ実装の設定

［第2部］分散クエリエンジンでの利用

第4章：Apache Spark

Apache Sparkの概要
Sparkでデータ処理を実行する
Icebergの利用を開始する
Icebergを利用する際のパラメータ設定
基本的なIceberg機能の利用
高度なIceberg機能の利用
ストリーミングでの利用

第5章：Apache Flink

Apache Flinkの概要
Flinkでデータ処理を実行する
Icebergの利用を開始する
基本的なIceberg機能の利用
高度なIceberg機能の利用

第6章：Trino

Trinoの概要
Trinoでデータ処理を実行する
Icebergの利用を開始する
DDL（Data Definition Language）
DML（Data Manipulation Language）

第7章：Apache Hive

Apache Hiveの概要
Hiveでデータ処理を実行する
Icebergの利用を開始する
Hiveで実行できるIcebergの機能
DDL（Data Definition Language）
DML（Data Manipulation Language）

第8章：PyIceberg

PyIcebergの概要
PyIcebergの基本的な使い方
発展的な活用法
PyIcebergの設定とCLI
PyIcebergの制約

［第3部］ユースケースと応用

第9章：ユースケースとソリューションパターン

本章で紹介するユースケースについて
基本的なデータ分析パイプラインの構築
Change Data Captureによるリアルタイムデータ同期
SCD Type 2による履歴管理
Write-Audit-Publishパターンによるデータ品質管理
ストリーミング処理とスキーマ進化

第10章：AWSでIcebergを活用する

データ基盤にAWSを活かす
Icebergのデータを保存するストレージ
Icebergカタログ
データ収集の仕組み
Icebergテーブルを活用するためのエンジン
セキュリティとガバナンス

第11章：運用管理

代表的な運用管理タスク
データライフサイクル管理
コンパクションの実行
モニタリング

第12章：パフォーマンス最適化

「パフォーマンス最適化」の種類
基本的なクエリパフォーマンス最適化手法
基本的な書き込みパフォーマンス最適化手法
高度なクエリパフォーマンス最適化手法
高度な書き込みパフォーマンス最適化手法
ストレージパーティション結合の利用

第13章：Icebergへの移行戦略とパターン

移行を検討する際のステップ
Icebergの導入目的の確認
移行対象の整理
移行戦略の策定
コンポーネントごとの移行の実施
データ移行のアプローチ
シナリオ別の移行アプローチ

プロフィール

田中智大（たなかともひろ）

アマゾンウェブサービスジャパン合同会社サポートエンジニアリングチームに所属。2017年にAWSにジョインし、ビッグデータに関連するサービスについて、日々お客様の技術的課題の解決に取り組んでいる。最近はApache Iceberg OSSへの貢献をはじめ、海外カンファレンスでの登壇などコミュニティ活動にも積極的に参加している。

疋田宗太郎（ひきたそうたろう）

アマゾンウェブサービスジャパン合同会社所属。SI企業でエンタープライズITに向けた市場取引システムやデータ分析基盤の構築、運用に従事。AWSではデータ分析基盤の構想策定から具体的な実装支援までを行う。巨大なデータを効率よく柔軟に扱う技術と、それを支えるOSSに関心があり、Apache IcebergやOpenSearchを好む。

エンジニア選書実践Apache Iceberg —⁠—高効率・高生産性を実現するデータ基盤の構築と運用

サポート情報

概要

こんな方にオススメ

目次

［第1部］Apache Icebergの基本

第1章：データレイクの課題とApache Iceberg

第2章：Apache Icebergの仕組みと機能

第3章：Icebergカタログとストレージ

［第2部］分散クエリエンジンでの利用

第4章：Apache Spark

第5章：Apache Flink

第6章：Trino

第7章：Apache Hive

第8章：PyIceberg

［第3部］ユースケースと応用

第9章：ユースケースとソリューションパターン

第10章：AWSでIcebergを活用する

第11章：運用管理

第12章：パフォーマンス最適化

第13章：Icebergへの移行戦略とパターン

プロフィール

田中智大（たなかともひろ）

疋田宗太郎（ひきたそうたろう）

エンジニア選書 実践Apache Iceberg —⁠—高効率・高生産性を実現するデータ基盤の構築と運用

サポート情報

概要

こんな方にオススメ

目次

［第1部］Apache Icebergの基本

第1章：データレイクの課題とApache Iceberg

第2章：Apache Icebergの仕組みと機能

第3章：Icebergカタログとストレージ

［第2部］分散クエリエンジンでの利用

第4章：Apache Spark

第5章：Apache Flink

第6章：Trino

第7章：Apache Hive

第8章：PyIceberg

［第3部］ユースケースと応用

第9章：ユースケースとソリューションパターン

第10章：AWSでIcebergを活用する

第11章：運用管理

第12章：パフォーマンス最適化

第13章：Icebergへの移行戦略とパターン

プロフィール

田中智大（たなかともひろ）

疋田宗太郎（ひきたそうたろう）

エンジニア選書実践Apache Iceberg —⁠—高効率・高生産性を実現するデータ基盤の構築と運用