本書は、データ基盤の構築や運用、活用に至るまでのデータエンジニアリングに携わるデータエンジニアやデータサイエンティストの方々に向けて、次世代のデータ基盤を支えるオープンテーブルフォーマットであるApache Icebergを包括的に解説します。
- ETLジョブのパフォーマンスやコストをもっと最適化できないだろうか……
- データ連携元のスキーマが変更されて、パイプラインを修正するのが大変だ……
- データのバージョン管理が煩雑で、過去のデータにアクセスするのが難しい……
- 適材適所でツールを使い分けたいけど、データの移動や一貫性の確保が煩雑で、運用が大変だ……
- 拡張性のあるデータ基盤を構築したいけど、最初はPythonで簡単に始めたい……
このような悩みを抱える方々にとって、Icebergは有効なソリューションになり得ます。Icebergはさまざまなツールが共有できるオープンソースのテーブルフォーマットであり、データの変換や参照を高速化するとともに、ACIDトランザクションやスキーマの進化、データのバージョン管理などの様々な機能によって、データ基盤の柔軟性や効率性を向上させます。
2017年にNetflixによって開発され、後にApacheソフトウェア財団に寄贈されたIcebergは、活発なコミュニティによって開発が進められており、今日では様々なデータプラットフォームに取り入れられています。本書がIcebergが未来のデータ基盤に持ち得る意義を理解し、実践的な活用方法を学ぶ一助となることを願っています。