その象徴が初日(6/13)のオープニングキーノートにおいてHortonworks CEOのロブ・ビアデン(Rob Bearden)氏から発表されたIBMとHortonworksのデータサイエンス事業におけるパートナーシップ強化です。IBMは同社で開発していたHadoopディストリビューション「IBM BigInsights」を捨て、今後は「Hortonworks Data Platform(HDP)」を公式のHadoopプラットフォームとして扱い、既存のBigInsightsユーザはHDPへと移行することになります。IBMはここ数年、WatsonをはじめとするAIおよびデータアナリティクス事業に強くコミットしていく方針を打ち出していますが、その姿勢をさらに強化し、リソースをこれらの事業に集中させるためにも、データの格納庫となるHadoopそのものの開発からは手を引き、従来から強いパートナー関係にあるHortonworksにその部分を任せる選択をしたのです。
この提携により、HortonworksはIBMのデータサイエンス製品である「IBM Data Science Experience(DSX)」をHDPにバンドルして再販することが可能となり、Hortonworksにとっても戦略上、非常に大きなメリットとなります。AIやデータサイエンスという競争の激しい分野でメインプレーヤーとして生き残っていくためには、それぞれの強みに特化する"選択と集中"が必要な時期に来ていることを示した発表だったといえます。
ではAI時代に最適化されたデータレイクを構築するために必要な"モダンなアーキテクチャ"とは具体的には何を指すのでしょうか。マーシー氏はキーノートにおいてHortonworksが現在取り組んでいる「Hortonworks Data Cloud v2.0」と「Data Lake 3.0 by Hadoop 3.0」を紹介していました。ここで注目したいのは、年内にもリリースされる予定のHadoop 3.0をベースにしたデータレイクアーキテクチャを「Data Lake 3.0」と呼んでおり、Data Lake 3.0における「データOS」としてリソースマネージャのApache YARNを位置づけている点です。
1つのクラスタ内で複数の処理基盤を実行できるYARNはHadoopの進化において革新的な変化をもたらした技術ですが、次世代データレイクにおいてはさらに進化したYARNでもって、CPUやメモリ、そしてディープラーニングに欠かせないGPUを含めたリソースを管理し、その上でコンテナ化したアプリケーションを実行させることを目指しています。すでにHortonworksの社内ではData Lake 3.0によるデータレイク環境が構築されており、数百ノードで構築されたYARNクラスタ上で数百万のDockerコンテナと数十万単位のアプリケーションワークロードが稼働しているとのこと。YARNの特徴を活かし、SparkやMapReduce、Tez、TensorFlowなど複数のエンジンを同一クラスタ内で実行し、アプリケーションごとに最適なリソースを配分する、さらにコンテナ化によってアプリケーションの独立性を高めながらもサイロ化を避け、アプリケーション間のやり取りをも可能にする"アプリケーションセントリック"なアプローチでもって次世代のデータレイクとしての存在価値を高める - AI時代のデータレイク構築においてはYARNがこれまで以上に重要な役割を果たすといえるのかもしれません。
なお、初日のキーノートにはゲストスピーカーとしてMicrosoftのクラウド部門担当パートナーグループマネージャ スリラム・ラオ(Sriram Rao)氏が登壇し、Microsoftが社内で運用している5万ノードにもおよぶ巨大アナリティクス基盤「Cosmos」をYARNに移行中であることを明かしています。CosmosはかつてHadoopのライバル的な存在であったDryadが実装されている並列分散処理基盤で、現在Microsoftが提供する「Azure Data Lake」の元になっているサービスでもあります。YARNクラスタに移行する理由としてラオ氏は「同一クラスタ内ですべての処理を実行させたいというニーズが高かった。サステナブルでスケーラブルなクラスタを構築するには自社で開発するよりも、すでにあるYARNというイノベーティブな技術を使うのが最適であると判断した」と語っていましたが、Dryadを実装した巨大クラスタがHadoopの要石であるYARN上で構築されているという事実に、隔世の感を禁じ得ない思いがします。
Yahoo!ではHadoopのデータセットをベースにしたSparkクラスタを構築し、その上で多くのアナリティクエンジンを走らせていますが、2016年まではディープラーニング用のクラスタは別に構築されていました。しかしスケーラビリティやパフォーマンスに難が生じることが多くなったため、他のマシンラーニング処理基盤と同じSparkクラスタ上で動作する「TensorFlowOnSpark」を開発、現在ではオープンソースとして公開しています。特徴はRDMA(Remote Direct Memory Access)プロトコルをノード間通信でサポートしている点で、これによりgRPCよりも高速な処理を実現できています。「TensorFlowはビッグデータクラスタにディープラーニングをもたらす画期的な技術。今後はTensorFlowとKerasの統合も視野に入れて開発を進めていく」(Yahoo!)