著者の一言

本書は、データ基盤の構築や運用、活用に至るまでのデータエンジニアリングに携わるデータエンジニアやデータサイエンティストの方々に向けて、次世代のデータ基盤を支えるオープンテーブルフォーマットであるApache Icebergを包括的に解説します。

  • ETLジョブのパフォーマンスやコストをもっと最適化できないだろうか……
  • データ連携元のスキーマが変更されて、パイプラインを修正するのが大変だ……
  • データのバージョン管理が煩雑で、過去のデータにアクセスするのが難しい……
  • 適材適所でツールを使い分けたいけど、データの移動や一貫性の確保が煩雑で、運用が大変だ……
  • 拡張性のあるデータ基盤を構築したいけど、最初はPythonで簡単に始めたい……

このような悩みを抱える方々にとって、Icebergは有効なソリューションになり得ます。Icebergはさまざまなツールが共有できるオープンソースのテーブルフォーマットであり、データの変換や参照を高速化するとともに、ACIDトランザクションやスキーマの進化、データのバージョン管理などの様々な機能によって、データ基盤の柔軟性や効率性を向上させます。

2017年にNetflixによって開発され、後にApacheソフトウェア財団に寄贈されたIcebergは、活発なコミュニティによって開発が進められており、今日では様々なデータプラットフォームに取り入れられています。本書がIcebergが未来のデータ基盤に持ち得る意義を理解し、実践的な活用方法を学ぶ一助となることを願っています。

田中智大(たなかともひろ)

アマゾン ウェブ サービス ジャパン合同会社 サポートエンジニアリングチームに所属。2017年にAWSにジョインし,ビッグデータに関連するサービスについて,日々お客様の技術的課題の解決に取り組んでいる。最近はApache Iceberg OSSへの貢献をはじめ,海外カンファレンスでの登壇などコミュニティ活動にも積極的に参加している。

疋田宗太郎(ひきたそうたろう)

アマゾン ウェブ サービス ジャパン合同会社所属。SI企業でエンタープライズITに向けた市場取引システムやデータ分析基盤の構築,運用に従事。AWSではデータ分析基盤の構想策定から具体的な実装支援までを行う。巨大なデータを効率よく柔軟に扱う技術と,それを支えるOSSに関心があり,Apache IcebergやOpenSearchを好む。