Amazon KinesisはRedshiftに匹敵する破壊力 ─Hapyrus藤川氏に聞くAWSビジネスのトレンド

米ラスベガスで11月12~15日の4日間に渡って開催されたAmazon Web Services(AWS)の年次カンファレンス「AWS re:Invent 2013⁠⁠。世界中から約9,000名のユーザやパートナーが参加し、規模も熱気も昨年を大きく上回るイベントとなりました。アンディ・ジャシーSVPとヴァーナー・ボーガスCTOによる基調講演では、クラウド経由でバーチャルデスクトップ環境を提供する「AWS WorkSpaces」や、PostgreSQLユーザ待望の「Amazon RDS for PostgreSQL」など、AWSらしくユーザのニーズを的確に汲みとった新サービスやアップデートがいくつも発表され、会場を大きく沸かせています。

画像

gihyo.jpの連載「Amazon Redshiftではじめるビッグデータ処理入門」でおなじみの米Hapyrus ファウンダー 藤川幸一氏も、AWSパートナーとして今回のre:Inventに参加したひとりです。さまざまな新サービスのローンチがあったなか、藤川氏が「昨年のRedshiftに匹敵する衝撃的な新サービス」と強調するのが、リアルタイムストリーム分析サービスの「Amazon Kinesis」です。今回、イベント開催中に藤川氏に直接お話を聞く機会を得たので、Amazon Kinesisの可能性を中心に、AWSビジネスの現在、そして今後の方向性について伺いました。

クラウドでイベントプロセッシング ─“Kinesisのすごさ”にまだ誰も気づいていない?!

─⁠─今回のre:Inventでは、昨年のRedshiftに相当するような衝撃的な発表はなかったというのが印象なのですが、藤川さんはどう思われますか。

藤川:基調講演の最後の最後でボーガスCTOが発表した「Amazon Kinesis⁠⁠、これには驚きました。もっとも会場の参加者のほとんどはKinesisのすごさをあまり理解してなかったように思えます。どうしてKinesisがすごいかというと、イベントプロセッシング(CEP)をクラウドで実現するからです。これは価格とパフォーマンスでDWHの常識を覆したRedshiftに匹敵する破壊力だと僕は思います。

ソーシャルデータやWebログなどのストリームデータをリアルタイムに分析する「Amazon Kinesis」は藤川氏によれば「今回のイベントで最大の発表。Redshift並に業界を変えるインパクトがある」とのこと
ソーシャルデータやWebログなどのストリームデータをリアルタイムに分析する「Amazon Kinesis」は藤川氏によれば「今回のイベントで最大の発表。Redshift並に業界を変えるインパクトがある」とのこと
─⁠─ボーガスCTOはKinesisのことをCEPとは言ってなかったような気がするのですが。

藤川:たぶん意図的にCEPとは言わないようにしたのではと思います。でも複数のデータソースから得られたストリームデータをリアルタイムに分割してアプリケーションに渡す、これでCEPのような仕組みを構成することが可能です。CEPはあらかじめ作成されたイベントシナリオに沿ってストリームデータを処理するので、渋滞情報の通知やソーシャルゲームの高得点ユーザランキング情報、Twitterのトレンドなど、⁠最新の情報をいま知りたい」というアプリケーションを作成するには最適です。

ですが、これまではIBMやSybaseなどエンタープライズベンダによる高額なオンプレミス製品しかなかったので導入できる企業も限られていた。それが従量課金のマネージドサービスでCEPが使えるようになるのだから、既存のエンタープライズベンダにとっては脅威としか言いようがないんじゃないでしょうか。

─⁠─考えてみればストリームデータは平常時とピーク時の差が大きいので、従量課金には適しているともいえますね。

藤川:AWSのことなので、価格帯も既存のCEPの1/10~1/100ぐらいになるように設定しているはずです。実際、資料を見たところ基本料金はかなり安い。Kinesisではストリームデータを1本あたり1,000トランザクションまで書き込み可能なシャード(shard)という単位に分割して処理するのですが、このシャードの数と書き込みトランザクション量(PUT数)に応じて課金されます。1シャードあたり1時間0.015ドル、100万PUTで0.028ドル、これだけ聞くとちょっと想像しづらいかもしれませんが、かなり破壊的な価格だといえます。必要に応じてシャードを増やしたり破棄することができるのでスケールも自由自在です。

Kinesisはストリームデータを「シャード」と呼ばれる単位に分割する。このシャードの数とトランザクション量に応じて課金が行われる
Kinesisはストリームデータを「シャード」と呼ばれる単位に分割する。このシャードの数とトランザクション量に応じて課金が行われる
─⁠─Kinesisに相当する、あるいは近い価格帯のCEP関連製品はいまのところ見当たらない感じなんでしょうか。

藤川:オープンソースプロジェクトのJubatusが近い存在かもしれませんが、クラウド上で従量課金で利用できるKinesisのほうがインパクトは強いですね。僕はビッグデータのトレンドは4つに分けられると思うんです。1つめはHadoopのように単純でまじめなバッチ処理、2つめはカラムナー指向データベース、3つめはインメモリデータベース、そして4つめがCEPです。AWSはこれまでHadoopはEMRで、カラムナーはRedshiftで対応してきました。3つめのインメモリはRDSの拡張などで対応するのかなと推測していますが、まさか今回、最後の分野のCEPを攻めてくるとは思わなかったので、正直かなり驚いています。

─⁠─AWSの動きが速すぎて、パートナーとしてはかなりキャッチアップしていくのが大変なんじゃないでしょうか。

藤川:いや、Kinesisはぜひウチ(Hapyrus)で扱ってみたいプロダクトですよ。これからじっくり使い込んでみるつもりです。

キャッチアップが大変なのは既存のエンタープライズ業界だと思います。CEPというイベントドリブンの領域には分散バッチ処理におけるHadoopに相当するような、エポックメイキングな存在のオープンソースはありません。だからレガシーなベンダは高額な製品でも顧客に買ってもらうことができた。でもRedshiftがDWHの世界に価格破壊をもたらしたように、KinesisはこれまでのCEPの常識、とくに導入コストの障壁を根底から破壊する可能性をもっています。Kinesisはまだリミテッドプレビューの段階ですが、AWSはいつも十分に使える状態になってからプレビューを公開するので、これまでの実績からいっても品質的に大きな問題があるとは思えません。ただ、これは僕の意見ですが、イベントプロセッシングというアーキテクチャ自体がまだこなれていないので、Kinesisもブラッシュアップが必要な部分は多いかもしれません。

藤川幸一氏
藤川幸一氏

今回のre:Inventに参加して、この勢いは止められないとつくづく感じます。オンプレミスとAWSのすり合わせもかなり進んでおり、スタートアップからはAWSをベースにした新たなクラウドソリューションが次々と出ています。ほかのクラウドベンダとの差は縮まるどころか、拡がる一方でしょうね。

既存のRDBMSからRedshiftにJOIN

─⁠─前回お話を伺ったときはRedshiftが出てまもないころでしたが、その後、Hapyrusのビジネスも含め、Redsiftの市場における認知度はどれくらい高まってきた感じですか。

藤川:ものすごく応用範囲が拡がってきていると実感します。現在AWSが公開している事例から紹介すると、英BBCがグローバルで展開するコンテンツの分析をRedshift経由でオンデマンドで行うなど、大規模環境での利用が増えてきています。米国では金融やアドテクの事例が多いですね。とくにトラディショナルなDWHからのマイグレーションが目立ちます。

HapyrusのRedshiftビジネスもおかげさまで順調です。最近の傾向としては、半年前は話を聞くだけだった企業が、いまになって「やっぱり本気でRedsfiftの導入を検討したい」と戻ってくる案件が少なくないことが挙げられます。これは「本当に、この値段でDWHができるんだ」と体感したユーザが確実に増えているからだと見ています。既存のDWHに比べたら本当に嘘みたいな価格で実現できるという事実が、モメンタムを形成しつつあるんじゃないかと。

Redshift自体も昨年のリリースから何度もアップデートを重ねており、大規模で期間の長い分析にも安定したパフォーマンスを発揮できるという評価が高い。バックアップが複数リージョンをまたいで取ることができるようになるなど、機能面も日に日に高まっています。あとは導入までの期間の短さも大きなメリットですね。たとえばアドテク系の企業だと、キャンペーンサイトのWebログを分析するバックエンドシステムを1週間以内に作りたい、なんていうニーズがわりと頻繁にあります。こういうシステムもHadoopだと間に合わないけどRedshiftなら簡単に構築できる、とくにレポーティングができることはアドテクのビジネス戦略上、非常に重要なポイントです。こうした事例がひとつひとつ積み重なって評価につながっていると思います。

─⁠─前回、Hapyrusの「FlyData」はRedshiftやAmazon S3にログを継続的に送ることができるプロダクトだと伺ったのですが、その後大きな機能強化などはされたのでしょうか。

藤川:ユーザの声で多かったのが、既存のRDBMSからのデータをフィードしたいというものです。ログのアップロードも重要なんだけど、データベースのデータをJOINできないと使いづらいというフィードバックをいただいて、現在はとりあえず一番要望の多いMySQLのデータをRedsfiftにJOINできる独自のレプリケーションシステムを構築し、αバージョンとして提供しています。ユーザからも好評なので、なるべく早く正式提供したいですね。MySQLのほか、PostgreSQLやOracleなどにも対応していくことももちろん検討中です。

Hapyrusのユーザの動向で目立つのは、MongoDBからRedshiftに乗り換えるユーザがわりと多いことも挙げられます。これはたぶん、FlyDataがJSONログを扱えるからじゃないかと。あとHapyrusは2013年8月からRedshiftのリセラーになったので、ワンストップでRedshiftサービスを提供できるようになりました。

─⁠─順調そうで何よりです。具体的な事例でオープンにできるものはありますか?

藤川:現時点で公開できる事例としては、⁠料理の鉄人」⁠ドラゴンタクティクス」といったソーシャルゲームが人気のエニッシュにFlyDataを導入していただいています。FlyDataのクライアントモジュールが使いやすい、JSONが扱えるので分析がフレキシブルに行える、などの評価をいただいており、嬉しい限りです。エニッシュの人気ゲームは、全体で1日100GBレベルの分析用データが発生します。こうしたデータをリアルタイムにロードすることはRedshiftの制限もあってむずかしいんですが、FlyDataを使って容易にハンドルされているようです。

エンタープライズのクラウド化はもはや“抗えない流れ”

─⁠─Hapyrusは米国に拠点をおいてビジネスを展開されていますが、日本のお客さんも増えてきているんですか?

藤川:Hapyrusは日本にも拠点を作りました。今後は日米二極体制で進めていきます。日本のユーザにもRedshiftやKinesisで、既存のITではできなかったことができるようになってほしいと思っています。今後はAWSのリージョンをまたいで、エンドツーエンドでデータをセキュアに運ぶしくみを構築することも考えています。

─⁠─米国に拠点を置いていると日米のユーザの違いがかなり見えてくると思うのですが…。

藤川:日本のユーザも、ことクラウドに関してはだいぶ姿勢が変わってきていると思いますよ。とにかく外圧が大きいので、もう抗えなくなってきている。米国ではエンタープライズの市場にどんどんベンチャーが進出してきて、AWSやオープンソースを駆使してこれまでの常識では考えられないコストでB2BやB2B2Cのソリューションを提供し始めています。日本はまだそこまでいかないけど、この外圧に逆らうことは得策じゃない。クラウドに移行することで明確なベネフィットがあるのにやらない、というのは少なくとも米国ではおかしなこととみなされます。そうした影響がすこしずつ日本のユーザにも浸透してきていると実感します。大変なのはユーザよりも、RedshiftやKinesisの登場でキャッチアップできなくなっているレガシーベンダやSIerじゃないでしょうか。

─⁠─最後に今後の展望に向けてひとこと。

藤川:Hapyrusは「データをクラウドに送り込む」ことを会社のミッションとして掲げています。データの置き場所がオンプレミスからクラウドに変わることで、いままでできなかったことができるようになる、それも低コストで迅速に。いまはRedshiftやS3へのポンプが中心ですが、近い将来はRDSやKinesisに対応していくつもりです。今回のKinesisの登場で、我々のやるべきことがまたひとつ増えた感じですね。

─⁠─次にお話をするときはKinesisのビジネスについても伺えることを期待しています! ありがとうございました。

おすすめ記事

記事・ニュース一覧