(株)NTTデータは、トレジャーデータ(株)と連携し、トレジャーデータが開発するオープンソースのデータ収集基盤Fluentd、およびEmbulkのサポートサービスを2016年6月21日から開始した。
トレジャーデータは米国、日本、韓国に拠点を置き、同社の主要サービスであるクラウドベースのビッグデータ収集、保管、分析を行う「トレジャーデータサービス」では、顧客から託されているデータ量は2016年4月時点で43兆件にも達している。
これまではデータ収集基盤であるFluentd/Embulkをオープンソースとして提供しており、直接のサポートを行うことはなかった。とはいえFluentd/Embulkはすでにビッグデータにおける標準的なデータ収集基盤として多数のサービスや組織が導入しており、顧客からも直接のサポートを希望する声が高まったとして、2015年から北米でFluentdのサポートを開始、日本でもSRA OSSと協業してFluentdのサポートを始めた。今回のNTTデータとの連携はこれに続くもので、収集データをストリーム転送するFluentdに加え、バッチ転送に対応したEmbulkについてもサポートを行う。
一方、NTTデータでは2010年よりオープンソースの並列分散処理基盤HadoopやSpark(2015年~)をビッグデータの処理や分析に活用するための導入コンサル、構築・運用、サポートを行うサービスを通信業からソーシャルサービス、さらに建設業、金融業、製造業等の顧客に提供してきた。また、Hadoop、Spark開発プロジェクトにも積極的に関わり、同社とNTTから合わせて5名のコミッターが選出されている他、開発コード行数の指標もNTTと合わせて世界4位となっている。
同社のHadoop/Spark活用サービスの中で、これまでHadoopへデータを収集して送り込む部分については、ファイルを固めて転送するプログラムを自社で作成して対応してきた。しかし、送受信の確認や送信中の不具合、トレーサビリティへの対応が難しかったり、IoT等の分散したデータ収集元からさまざまなフォーマットのデータを効率よく収集する需要が高まり、柔軟なデータ収集基盤としてFlueentd/Embulkを指名してサポートを希望する顧客も増えてきたという。こうした声に応え、今回のサービスを開始するに至った。
今回の連携により、NTTデータは「Fluentd/Embulkサポートサービス」を同社の「Hadoop/Sparkサポートサービス」のオプションとして提供する。Fluentd、Embulkを活用するシステムのコンサルから、設計・開発、運用・保守フェーズまでをカバーし、インストールや設定、不具合の解析や回避策の提示までサポートする。
そしてトレジャーデータは仕様の確認や不具合への対応において、ソースコードレベルでの解析レベルでの解決策を提示したり、パッチの作成を行うといった形でNTTデータのサポートへの支援を行う。
今後は両社ともこの連携での導入実績を元に、顧客からの要望や得られた知見を、Fluentd/ Embulkのオープンソースコミュニティにフィードバックし、コミュニティでの開発を通じて機能、性能向上に努めていくとのこと。