エンタープライズビジネスを加速させるHadoop

第3回海外におけるHadoop活用事例

2010年10月12日、ニューヨークにてHadoopの祭典「Hadoop World 2010 NYC」が開催されました。このイベントには日本からもNTTデータとリクルートが参加し、それぞれの技術開発・検証などの取り組みや今後の展望などを発表しました。今回は、Hadoop World 2010 NYCで発表された事例のうち以下の3つを取り上げ、海外におけるHadoopの活用事例を紹介します。

  1. 米国陸軍におけるHadoopの活用
  2. General Electric社における感性分析事例
  3. シカゴ・マーカンタイル取引所における事例

1.米国陸軍におけるHadoopの活用

最初の事例は米国陸軍でのHadoopの活用事例です。大量のデータの扱いに悩んでいるのは企業だけではありません。米国陸軍もまた、膨大なデータからいかにして有益な情報を抽出するかという課題を抱えていました。彼らは時代とともにより粒度の細かい情報を管理するようになりました。近年は組織、組織内のグループ、グループ内の個人、個人に関連する情報といったように、組織内部のいくつもの階層にある大量のデータを管理していました。彼らはこのデータ間の関連を分析して、有益な情報を見つけ出すというミッションがあります。

有益な情報とはたとえば、ある個人が特定のテロリストとかかわりがあるかどうかといったことなどです。しかし階層が深くなるにつれ情報量は急激に増加し、結果として情報爆発によって豊富なデータの中に有意な情報が埋もれてしまう事態が生じました。

 増加し続ける陸軍の管理情報
図 増加し続ける陸軍の管理情報

この課題に対して、米Digital Reasoning社が解決に乗り出しました。具体的なソリューションは、階層化された大量のデータをHadoopクラスタに格納し、Cassandra/Synthesys※1といった周辺プロダクトを用いて何億ものドキュメントからデータ間の関係性を分析するというものでした。

Digital Reasoning社のCEO Tim Estes氏は「これからは、データは検索する時代ではなく、分析のために用いられる時代だ」と述べています。この事例から、Hadoopをはじめとした一部の周辺プロダクトは、すでに政府や軍事利用に十分な成熟度に至ったと言ってもよいでしょう。

2.General Electric社における感性分析事例

続いてはGeneral Electric社における感性分析の事例を紹介します。General Electric社は幅広い事業において存在感のある世界最大のコングロマリットです。同社はHadoopをデータマイニングに活用しており、顧客の感性を解析するシステムを開発したと発表しています。

たとえば自社の商品やサービスに対して顧客がどのような感想/意見を持っているのかという情報は、マーケティングにおいて顧客接点を得るための材料となり、顧客の囲い込みに有利に働くでしょう。同社はHadoopを用いて、Twitterやブログなど顧客が投稿したブログやデータのタイトルと本文を抜き出し、抜き出したタイトルと本文から主要な言語特性を抜き出します。そして、投稿されたデータを内容の真偽で分類し、内容が事実なら更にその内容がポジティブな内容か(たとえば商品やサービスのクオリティを評価する内容か⁠⁠、そうでないかの観点で分類します。こうして分析された結果を受けて、彼らは自社の顧客の囲い込み戦略を立てるのだと言います。

さらに彼らは、Twitterやブログといった各々のデータソースで閉じた分析ではなく、データソースをまたがって顧客の感性を分析することにHadoopを応用する戦略があるとも述べています。

この事例のように、大量のデータを自由に蓄積/分析できるようになった今、Hadoopをマーケティングに活用することはあたりまえになるのかもしれません。

 GEによる感性分析
図 GEによる感性分析

3.シカゴ・マーカンタイル取引所における事例

最後はシカゴ・マーカンタイル取引所での事例です。シカゴ・マーカンタイル取引所(CME)はシカゴにある証券取引所であり、マッチングやクリアリングを行うためのシステムを抱えています。彼らはこのような商取引システムでは典型的な技術的課題を抱えていました。それは、システムに高いスループット/低レイテンシを求められること、データロスを起こさないこと、データの保管期間などの制約なのだと述べています。

これらの課題を踏まえ、彼らはHadoopをデータマイニングに利用する他、システムのパフォーマンス解析に利用しています。注目すべきところは、Hadoopを、彼らの基幹業務に利用するだけではなく、商取引システムのパフォーマンス分析に利用している点です。HadoopはこれまでVISAやJP Morgan Chaseといった金融業界でも活用されてきましたが、多くの場合はリスク分析など基幹業務へ適用でした。しかし彼らは基幹業務そのものではなく、基幹システムを改善する用途にもHadoopを活用しているのです。彼らはシステムのインフラ全体にまたがった遅延を追跡してレポーティングするために、商取引システムのいくつかの箇所の遅延を集計するモニタリングシステムが必要でした。Hadoopは、こういった用途に利用されているのだそうです。

これまでの金融業界のHadoopの活用事例と比較すると、CMEのような事例は非常に珍しいでしょう。実際にはシステムの様々なログをもとに、パフォーマンスをモニタリングすることを考えていたそうです。ところが、商取引システムが出力するログを分析するにはいくつかの課題があったといいます。例えば、モニタリングの対象のデータは、実に様々なフォーマットのものが混在しています。フォーマットが統一されていないことは、ログのフィルタリングや検索を難しくする要因であり、またデータソースの異なるログ同士を関連付けることも難しいです。もうひとつの課題は、ログの生存期間が非常に短く、すぐに消えてしまうのです。

システムの遅延は発生して初めて認識できるものなので、事後にログをモニタリングする必要があります。しかし従来大量のログを蓄積することは難しく、過去のログは捨てざるを得ない為、モニタリングに必要になった時にはすでに過去のログが消え去ってしまっている可能性があったのです。

これらの問題を解決するために、彼らはモニタリングシステムにHadoopを活用しました。重要なログは全てHadoopの大規模分散ファイルシステム「HDFS」に蓄積しておくことができます。これによって、モニタリングに必要なログの生存期間の短さを克服しています。そして、モニタリングの際にログをフィルタリング/検索しやすいように、Hadoopの大規模分散処理フレームワーク「MapReduce」で処理を行う際に各種ログのフォーマットを正規化/カテゴライズするのです。こうして加工したログに対しては、クエリを発行して検索することが可能なようにしているのだと述べています。

この事例は、まさに「従来溜めておくことができずにやむを得ず捨てていたデータ」を有効活用するためにHadoopを活用した事例であり、同時にHadoopが非定形データを扱うことが得意であることがわかる事例です。

 大量のデータを蓄積できる
図 大量のデータを蓄積できる

以上、Hadoop World 2010 NYCで発表された事例のうち3つを紹介してまいりました。Hadoopがすでに軍事目的に利用されるほど成熟してきたこと、マーケティング分析などの領域に適用され始めていること、そして既存の基幹システムのパフォーマンス分析に利用したり、幅広く活用されたりしていることがお分かりになったでしょうか。さて次回は、巨大データの代表例である「ログ」が、Hadoopでどのように分析/活用可能になるのかを見てまいります。

おすすめ記事

記事・ニュース一覧