MapReduceは強力なバッチ処理を行う分散システムですが、サーバもクライアントも専用のソフトウェアが必要となります。だからこそ、高効率な環境が構築できるという利点もありますが、入出力がキーとバリューであるという点に着目した場合、同じような動作をするシステムがWeb上で作れるのではないか?と思いました。
現在はさまざまなシステムがWebサービスとして展開されており、あらゆるサービスを受けることができます。Webメール、スケジューラー、動画サイト、オフィスクローンなどなど…。Webブラウザが1つのプラットフォームとして進化し、またそれがOSの域にまで足を伸ばそうとしています。
そして、それらの実装の多くにJavaScriptが使用されていますが、ブラウザとWebサービスの進化の両方が組み合わさったときに、単独のプラグインやランタイム環境を必要としないJavaScriptが使用されるのはもっともな話です。
- サーバにぶら下がる多くのクライアントPC
- ↓
- サーバから見た場合、多くのクライアントPC=計算機リソース
- ↓
- NameNodeにぶら下がるDataNode群
という関係性に置き換えられないだろうか? という単純な発想の元、MapReduce処理をJavaScript+CGIで作ってみようと思いました。これが“Jadoop”です。
システム概要
HadoopとJadoopの違いは図1のようになります。
Hadoopの場合はデータの保存時にデータブロックごとにDataNodeに分割保存されます。MapReduce指示を受け、タスクを各DataNodeに分配しますが、そのときは各自が自分で保存しているデータを計算に使用し、無駄なデータ転送が行われないようにしています。
Jadoopの場合はデータの管理は全てサーバサイドで行っており、PCからのリクエストによりデータをその場でダウンロードさせます。PCはダウンロードしたデータについて処理を行い、サーバに返します。この点ではサーバ主導型の分散といえます。基本的にはこの流れをMap,Reduceそれぞれのタスクで行います。
Map処理について
サーバサイドではMapしたいデータについてPCからのリクエストに応じて分割ダウンロードさせます。データ形式はJSONを使用し、データはキーとバリューの配列を渡します。
PCではmap処理用のJavaScript関数により、ダウンロードしたデータについてキーとバリューを意識した処理を行います。処理結果はそれぞれMap処理済みとしてサーバにアップロードされます。このときのデータ形式もJSONとし、キーとバリューの配列を渡します。
Mapしたいデータについて全て処理が終わったモノがMapの結果として保存され、次のReduceフェーズへと進みます。
Reduce処理について
Reduceも基本的にMapと同じですが、データのダウンロードの前にキーごとにバリューをグルーピングし、ソートするという処理をサーバサイドで行います。これを行うことにより、同一のキーが別々のReduce処理に流れることを防ぎ、かつデータの並び順もReduce処理単位では保証されることを意図しています。
これで生成されたReduceしたいデータはMapと同じようにPCからの要求に応じて分割してダウンロードされます。このときのデータ形式はJSONですが、キーとバリューの関係が1対1ではなく、1対Nのリスト構造となっています。これは前述のような処理を行っているためですが、お手本のReduceを摸したものとなっています。
PCではreduce処理用のJavaScriptの関数を通してキーとバリューのリストを処理し、結果をサーバにアップロードします。この処理が全ての分割されたデータについて行われたとき、MapReduceの処理は完結します。
処理の流れと実装
以下はワードカウントのためのJadoopの実装となります。
キーは行番号、バリューは行の文字列データとします。最終的に以下のような結果を期待します。
それぞれの単語と単語の出現個数がキーとバリューで表現されています。
コンストラクタ
今回はJadoop.jsというjsを作成し、jqueryと組み合わせて動作させるようにしてみました。コンストラクタではサーバサイドの各種CGIを定義し、Jadoopオブジェクトを生成します。
ここではwordcoutという種別で各種入出力のためのCGIを定義しています。
Map関数
コンストラクタで定義したmapするデータの取得CGIで得られるデータのキーとバリューのペアごとに呼び出される関数です。この例では、キーに行番号、バリューに文字列が与えられます。
ここではTynySegmenterという分かち書きのjsライブラリを使用しています。与えた文字列をこのライブラリで分かち書きし、[単語, 1]という配列を配列にpushしています(2重配列を生成している)。ここでは行番号をキーとして渡していますが、今回の処理では不要ですので無視しています。
1行目を例にすると、
- [[wakimoto,1],[takeshi, 1]]
という配列を生成していることになります。
mapするデータ全てに処理を適用後、2重配列はマージされサーバに転送されます(Map関数の戻り値をポストするCGIを使用する)。これがMap処理で分割されたデータすべてにMap処理が実行されます。
Reduce関数
Reduce関数はMap処理が全て済んでから呼び出されます。(サーバサイドで全てのMap処理が終わった事を検知してReduce用のデータをダウンロードさせる)
reduceするデータの取得で得られたデータはキーごとにグルーピングされ、バリューのリストを生成しています。この例ではキーtakeshiに関しては、以下のようなデータが与えられます。
この処理ではキーごとの出現回数をカウントするだけなので単純にvalのlengthを取得し、単語と件数の配列を返しています。
全てのreduceするデータの処理が終わった後、サーバに転送され結果として保存されます。
Jadoopへのセットと実行
Jadoopオブジェクトにmapper, reducerとして登録し、定期的に実行させます。
この例では10秒ごとにmapデータのダウンロード、reduceデータのダウンロードを行い、データがあればwordcountMap(), wordcountRed()が実行され、結果をサーバに返すようになっています。
このようなjsを自分のWebページに仕込むことで、不特定多数のクライアントPCに対して分散処理を行わせることが可能となります。
実装しての感想
キーとバリューというデータ構造、MapとReduceという処理フェーズの関係性が明確だったので実装は非常に簡単に進めることができました。単純ではありますが、この割り切りが非常に重要で、Hadoopというフレームワークがいかに強力かというのを思い知らされました。
今回作成したJadoopですが、実用的かどうかはともかく、実際にデータがフェーズごとに変化し、最終的に結果として出力されるのは快感です。
Hadoopとの違いは、
- リアルタイムでデータをダウンロードさせるため小さいサイズに限られる
- 大容量データを処理するにはより多数のクライアントが必要
- より多数のクライアントによってサーバ側がボトルネックになるかも
- JavaScriptに依存した処理しかできない
というところでしょうか。またサーバサイドの実装も必要なため、それほど手軽ではないかもしれませんね。ただ、サーバサイドのクラウドが叫ばれますが、サーバ側から見たらクライアントPC群もクラウドなのではないか、という発想の実現は非常に楽しいものがありました。
最後に今回作成したJadoop.jsを掲載しておきます。