過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」

毎年6月、米サンノゼのダウンタウンにあるSan Jose McEnery Convention Centerでは、世界中のHadoop開発者/ユーザがあつまる年次カンファレンス「Hadoop Summit」が3日間に渡って開催されます。主催するのはApache Hadoopのコミッタを数多く抱え、Hadoopエコシステムとコミュニティを支える中心的存在のHortonworksと、そのHorotonworksのスピンアウト元であり、Hadoopを生み出したYahoo!です。

このHadoopの祭典が今年も6月13日 - 15日(米国時間)にかけて、サンノゼのコンベンションセンターで行われました。しかし今回はカンファレンスの名称が「DataWorks Summit 2017 San Jose」と変わり、⁠Hadoop Summit」は併記されているものの、開発者を中心とした"Hadoopコミュニティの一大イベント"という色は薄れ、かわりに"データビジネスの最新事情を紹介するビッグデータカンファレンス"という位置づけにリブランディングされた印象を受けました。中でもAIへの関心がIT業界を超えて高まっているトレンドを反映してか、キーノートやセッションにおいてもディープラーニングやマシンラーニングの話題が中心となっています。

「Hadoop Summit」あらため「DataWorks Summit」の会場であるSan Jose McEnery Convention Center。最近はAppleのようにサンフランシスコのモスコーンからこのサンノゼのコンベンションセンターに会場を移してイベントを開催するIT企業が増えている
「Hadoop Summit」あらため「DataWorks Summit」の会場であるSan Jose McEnery Convention Center。最近はAppleのようにサンフランシスコのモスコーンからこのサンノゼのコンベンションセンターに会場を移してイベントを開催するIT企業が増えている

データビジネスをめぐる世界が大きく変化していく中にあって、データプラットフォームのデファクトスタンダートしての地位を確立してきたHadoopもまた、時代のニーズに応じた変化を迫られているようです。本稿では3日間の現地取材で得たHadoop関連トピックを紹介しながら、Hadoopとデータビジネスの現在を切り取ってみたいと思います。

Hadoopエコシステムは次世代データレイクを担うことができるか?

前述したとおり、AIやディープラーニングがIT業界を超えた社会的なトレンドになっている現状を反映してか、主催者であるHortonworksによる発表もAI/ディープラーニングにフォーカスしていた感があります。

その象徴が初日(6/13)のオープニングキーノートにおいてHortonworks CEOのロブ・ビアデン(Rob Bearden)氏から発表されたIBMとHortonworksのデータサイエンス事業におけるパートナーシップ強化です。IBMは同社で開発していたHadoopディストリビューション「IBM BigInsights」を捨て、今後は「Hortonworks Data Platform(HDP⁠⁠」を公式のHadoopプラットフォームとして扱い、既存のBigInsightsユーザはHDPへと移行することになります。IBMはここ数年、WatsonをはじめとするAIおよびデータアナリティクス事業に強くコミットしていく方針を打ち出していますが、その姿勢をさらに強化し、リソースをこれらの事業に集中させるためにも、データの格納庫となるHadoopそのものの開発からは手を引き、従来から強いパートナー関係にあるHortonworksにその部分を任せる選択をしたのです。

カンファレンスのオープニングキーノートの冒頭でビアデンCEO(左)から発表されたIBMとの提携。IBMはHDPを同社の公式Hadoop製品として今後扱うことになる
カンファレンスのオープニングキーノートの冒頭でビアデンCEO(左)から発表されたIBMとの提携。IBMはHDPを同社の公式Hadoop製品として今後扱うことになる

この提携により、HortonworksはIBMのデータサイエンス製品である「IBM Data Science Experience(DSX⁠⁠」をHDPにバンドルして再販することが可能となり、Hortonworksにとっても戦略上、非常に大きなメリットとなります。AIやデータサイエンスという競争の激しい分野でメインプレーヤーとして生き残っていくためには、それぞれの強みに特化する"選択と集中"が必要な時期に来ていることを示した発表だったといえます。

ではAI/ディープラーニングにスポットライトが当たっている現在、データプラットフォームとしてのHadoop、そしてHadoopのメインディストリビュータであるHortonworksにはどのような役割が求められているのでしょうか。今回の取材を通して筆者が強く感じたのは、データレイクとしてのHadoopの価値があらためて問われているという点です。ビッグデータという言葉が登場した2011年ごろから、大量の生データをスケールして格納できるHadoopはデータレイクの代表的な存在でしたが、2017年の現在に求められているデータレイクは5年前のそれとは同じではありません。Hortonworksの創業者のひとりであり、エンジニアリング部門のバイスプレジデントを務めるアルン・マーシー(Arun Murthy)氏は3日目(6/15)のキーノートにおいて「次世代データレイクを構築するための4つのドライバ」として

  • ディープラーニングプラットフォーム
  • サードパーティによるモダンデータアプリケーションの稼働
  • セキュリティとガバナンス
  • クラウドファースト

を挙げていますが、これはそのまま次世代のHadoopに求められるポイントであり、Apache Hadoopの開発に最も深く関わるHortonworksがプラットフォーマーとしてクリアすべき課題でもあります。とくにディープラーニングでは精度を高めるためにペタバイト級のデータが要求されることもめずらしくありません。

Hortonworksの創業者であり、エンジニアリング部門を統括するアルン・マーシー氏。Hadoopコミッタ(PMC)でもあり、コミュニティにおける中心人物のひとり
Hortonworksの創業者であり、エンジニアリング部門を統括するアルン・マーシー氏。Hadoopコミッタ(PMC)でもあり、コミュニティにおける中心人物のひとり

初日のキーノートにゲストとして登壇したNVIDIAのバイスプレジデント兼ジェネラルマネージャのジム・マクヒュー(Jim McHugh)氏は「データはディープラーニングにとっての血液であり活力源(lifeblood⁠⁠」と表現していましたが、その通りであるなら、その量は多ければ多いほどよいということになります。加えて、多数のGPUを活用するディープラーニングでは、当然ながらノード間で高速にデータを共有できる分散並列処理基盤が不可欠です。また、実行エンジンの異なる複数のアプリケーションを最適化して稼働させるためのリソース管理も重要なポイントです。Hadoopはディープラーニングのためだけのプラットフォームではありませんが、ディープラーニングをイネーブルにするデータレイクとして、5年前よりもずっと洗練された、モダンなアーキテクチャを備えている必要があるのです。

ディープラーニングで無双状態のNVIDIAもHortonworksの重要なパートナー。⁠ディープラーニングで重要なのはアルゴリズムよりもデータ。大量のデータこそがディープラーニングの血液となる」とNVIDIAのマクヒュー氏(左)
ディープラーニングで無双状態のNVIDIAもHortonworksの重要なパートナー。「ディープラーニングで重要なのはアルゴリズムよりもデータ。大量のデータこそがディープラーニングの血液となる」とNVIDIAのマクヒュー氏(左)

ではAI時代に最適化されたデータレイクを構築するために必要な"モダンなアーキテクチャ"とは具体的には何を指すのでしょうか。マーシー氏はキーノートにおいてHortonworksが現在取り組んでいる「Hortonworks Data Cloud v2.0」「Data Lake 3.0 by Hadoop 3.0」を紹介していました。ここで注目したいのは、年内にもリリースされる予定のHadoop 3.0をベースにしたデータレイクアーキテクチャを「Data Lake 3.0」と呼んでおり、Data Lake 3.0における「データOS」としてリソースマネージャのApache YARNを位置づけている点です。

Hortonworksが提唱する「Data Lake 3.0」ではYARNがデータOSとしての役割を果たす。アプリケーションは基本的にコンテナ化された状態で稼働する
Hortonworksが提唱する「Data Lake 3.0」ではYARNがデータOSとしての役割を果たす。アプリケーションは基本的にコンテナ化された状態で稼働する
Hadoop 3.0における新しいYARNのユーザインタフェース
Hadoop 3.0における新しいYARNのユーザインタフェース

1つのクラスタ内で複数の処理基盤を実行できるYARNはHadoopの進化において革新的な変化をもたらした技術ですが、次世代データレイクにおいてはさらに進化したYARNでもって、CPUやメモリ、そしてディープラーニングに欠かせないGPUを含めたリソースを管理し、その上でコンテナ化したアプリケーションを実行させることを目指しています。すでにHortonworksの社内ではData Lake 3.0によるデータレイク環境が構築されており、数百ノードで構築されたYARNクラスタ上で数百万のDockerコンテナと数十万単位のアプリケーションワークロードが稼働しているとのこと。YARNの特徴を活かし、SparkやMapReduce、Tez、TensorFlowなど複数のエンジンを同一クラスタ内で実行し、アプリケーションごとに最適なリソースを配分する、さらにコンテナ化によってアプリケーションの独立性を高めながらもサイロ化を避け、アプリケーション間のやり取りをも可能にする"アプリケーションセントリック"なアプローチでもって次世代のデータレイクとしての存在価値を高める - AI時代のデータレイク構築においてはYARNがこれまで以上に重要な役割を果たすといえるのかもしれません。

Data Lake 3.0はディープラーニングを前提にしたデータレイク環境。YARN上にデプロイされたコンテナの上でTensorFlowアプリケーション(走行中の自動車のリアルタイム検出)が稼働しているデモ
Data Lake 3.0はディープラーニングを前提にしたデータレイク環境。YARN上にデプロイされたコンテナの上でTensorFlowアプリケーション(走行中の自動車のリアルタイム検出)が稼働しているデモ

なお、初日のキーノートにはゲストスピーカーとしてMicrosoftのクラウド部門担当パートナーグループマネージャ スリラム・ラオ(Sriram Rao)氏が登壇し、Microsoftが社内で運用している5万ノードにもおよぶ巨大アナリティクス基盤「Cosmos」をYARNに移行中であることを明かしています。CosmosはかつてHadoopのライバル的な存在であったDryadが実装されている並列分散処理基盤で、現在Microsoftが提供する「Azure Data Lake」の元になっているサービスでもあります。YARNクラスタに移行する理由としてラオ氏は「同一クラスタ内ですべての処理を実行させたいというニーズが高かった。サステナブルでスケーラブルなクラスタを構築するには自社で開発するよりも、すでにあるYARNというイノベーティブな技術を使うのが最適であると判断した」と語っていましたが、Dryadを実装した巨大クラスタがHadoopの要石であるYARN上で構築されているという事実に、隔世の感を禁じ得ない思いがします。

Microsoftが構築するDryadを実装したCosmosクラスタは現在、全面的にYARN上に移行中。スケールしやすく、同一クラスタで複数の処理基盤を実行できる点が大きな魅力だという。⁠MicrosoftはYARNの開発にこれからも貢献していく」⁠ラオ氏)
Microsoftが構築するDryadを実装したCosmosクラスタは現在、全面的にYARN上に移行中。スケールしやすく、同一クラスタで複数の処理基盤を実行できる点が大きな魅力だという。「MicrosoftはYARNの開発にこれからも貢献していく」(ラオ氏)

リアルタイムデータ分析も新時代へ

HortonworksはDataWorks Summitの直前に、HDPと並ぶ同社のフラグシップ製品「Hortonworks DataFlow(HDF⁠⁠」の最新アップデートである「HDF 3.0」をリリースしています。HDFは"Data-in-Motion"、つまりストリーミングデータなど"動くデータ"を扱うことに適したソリューションで、オープンソースのApache NiFiをベースに、Apache KafkaやApache Stromといったメッセージングシステムも含まれています。HDFではリアルタイムなデータの流れ(フロー)をクラウド/オンプレミス問わずにオーケストレーションすることが可能でしたが、HDF 3.0ではさらに以下の機能が追加されています。

Streaming Analytics Manager(SAM)
ドラッグ&ドロップだけでストリーミングデータ分析アプリケーションが構築可能にするコーディングレスなコンポーネント
Schema Registry
NiFi、Kafka、Stormといった複数のストリーミングエンジンをまたがって、アプリケーションが相互にやり取りすることを可能にするスキーマ共有リポジトリ
IBM Power Systemsのサポート

HDFは、IoTや不正検出といったリアルタイムデータの分析ニーズが高まっていることもあり、着実に市場にその価値を浸透させています。2日目(6/14)のキーノートに登壇したHortonworksのエンジニアリング部門シニアディレクターでApache NiFiのプロジェクトリーダーでもあるジョー・ウィット(Joe Witt)氏は「データのライフサイクルはエッジデバイスでデータが誕生するところからはじまる。データが生まれてからどこを流れ、どのポイントで分析され、集約されていくのか、HDFはエンドツーエンドでデータを管理し、さらに可視化することで、リアルタイムなデータの状況を把握することができる」とストリーミング処理の実行基盤としてのHDFの優位性を強調していました。

HortonworksでHDFの開発を指揮するジョー・ウィット氏。NiFiの生みの親であり、コミュニティのリーダーでもある
HortonworksでHDFの開発を指揮するジョー・ウィット氏。NiFiの生みの親であり、コミュニティのリーダーでもある

セッションでもNiFiやKafkaを組み合わせ、リアルタイムデータ処理環境を構築し、現場で活用している事例がいくつが紹介されていました。そのひとつがチャットワークとNTTデータによるメッセージングサービスの事例で、読み込み(read)中心のメッセージングリクエストをリアルタイムに処理するパイプラインをKafka、HBase、そしてAkkaというオープンソースのツールキットを組み合わせて構築するという内容でした。こちらについてはまた稿を改めて紹介したいと思います。

日本人による唯一のセッション、チャットワーク 大村伸吾氏(右)とNTTデータ 土橋昌氏によるKafka、HBase、Akkaを使ったイベントソーシングシステム構築事例の発表の模様(詳細は別記事で紹介予定)
日本人による唯一のセッション、チャットワーク 大村伸吾氏(右)とNTTデータ 土橋昌氏によるKafka、HBase、Akkaを使ったイベントソーシングシステム構築事例の発表の模様(詳細は別記事で紹介予定)

ビッグベンダが名を連ねるユーザ事例

DataWorks Summitでは最先端のユーザ企業によるユニークなデータ活用や最新技術について話を聞くことができるのが大きな魅力のひとつですが、今年はやはりAI関連のセッションが非常に多く、なかでも一番人気はGoogleのディープラーニングフレームワークであるTensorFlowに関するものでした。以下、筆者が参加したセッションから、いくつか興味深かったものを簡単に紹介します。

Yahoo!によるディープラーニングフレームワーク「TensorFlowOnSpark」

Yahoo!ではHadoopのデータセットをベースにしたSparkクラスタを構築し、その上で多くのアナリティクエンジンを走らせていますが、2016年まではディープラーニング用のクラスタは別に構築されていました。しかしスケーラビリティやパフォーマンスに難が生じることが多くなったため、他のマシンラーニング処理基盤と同じSparkクラスタ上で動作する「TensorFlowOnSpark」を開発、現在ではオープンソースとして公開しています。特徴はRDMA(Remote Direct Memory Access)プロトコルをノード間通信でサポートしている点で、これによりgRPCよりも高速な処理を実現できています。⁠TensorFlowはビッグデータクラスタにディープラーニングをもたらす画期的な技術。今後はTensorFlowとKerasの統合も視野に入れて開発を進めていく」⁠Yahoo!)

TensorFlowOnSparkのアーキテクチャ
TensorFlowOnSparkのアーキテクチャ

Uberによるリソースマネジメントスケジューラ「Peloton」

2014年からHadoopを導入し、2017年現在では5000ノードを超えるHadoopクラスタを構築し数百ペタバイトのデータをその上で扱っているUber。これほど巨大なHadoopクラスタを運用するとなると、リソース管理にはやはり独自のメソッドが必要となります。現在、Uberではリソース管理にYARNとMesos、そしてYARN用のMesosフレームワークであるApache Myriadを使っていますが、それぞれに一長一短があり、またこれらを統合して使いたいというニーズが出たことから、現在、インハウスで「Peloton」というリソースマネジメントのためのスケジューラを開発中とのこと。今年中にはオープンソースとして公開する予定だそうです。

Uberがインハウスで開発中のリソースマネジメントスケジューラ「Peloton⁠⁠。GPUもすでにサポート済みとのこと。2017年中にはオープンソース化される予定
Uberがインハウスで開発中のリソースマネジメントスケジューラ「Peloton」。GPUもすでにサポート済みとのこと。2017年中にはオープンソース化される予定

Paypalによるディープラーニングを活用したリアルタイム不正検出

2億以上ものアクティブアカウントを抱えるPayPalは世界でも最大級のプライベートクラウドを運用していることで知られています。日々、膨大な数の金銭取引が発生するPayPalですが、不正行為や詐欺行為を検出するために「アクティブラーニング(Active Learning⁠⁠」というディープラーニングとGBT(Gradient Boosting Trees)アルゴリズムをベースにしたフレームワークを構築し、大きな効果をあげています。不正行為の検出にはエキスパートの知見がどうしても必要で、しかもアウトソースできないため、これまでラベリングに非常に時間がかかっていましたが、このフレームワークを適用することでパフォーマンス向上に加え、ラベリングのコストが大幅に削減できたとしています。

PayPalが詐欺防止と不正検出のために開発したディープラーニングをベースにしたフレームワーク「Active Learning」のアーキテクチャ
PayPalが詐欺防止と不正検出のために開発したディープラーニングをベースにしたフレームワーク「Active Learning」のアーキテクチャ

冒頭でも触れたとおり、Hadoop SummitあらためDataWorks Summitとして開催された今回のカンファレンスは、去年までの"Hadoop開発者の祭典"という雰囲気は薄れ、かわりにビジネス色の強いイベントとなりました。参加者も昨年の4000人から2500人と数を大きく減らしており、Hadoopのマスコットキャラであるゾウも見当たりません。筆者は2015年2016年と連続してこのカンファレンスに参加してきましたが、今年はやはり開発者の熱量を強く感じることはできませんでした。

Hortonworksは現在、Hadoopビジネスからデータビジネスへとその方向性を大きくシフトし、いちHadoopベンダからの脱却を図っています。IBMやMicrosoft、NVIDIAといったパートナーとの密な協力関係を前面的に出してきたのも、データカンパニーとして新たなエコシステムを構築していることを示したといえます。一方で、Hortonworksが創業時からの掲げている「オープンソースコミュニティとともに成長し、貢献する」という理念は今後も変わらずに維持していくはずです。AIやディープラーニングといったデータビジネスのトレンドを押さえ、市場でリーダーポジションを獲得しながらも、ふたたび開発者の熱量を上げていくことができるのか。Hortonworksが企業として次のステージに向かう大きな岐路に立っていることは間違いなさそうです。

おすすめ記事

記事・ニュース一覧