Waveがやってきた!
2009年5月サンフランシスコで開催されたGoogle I/O 2009で発表され、今秋一般プレビューも始まったGoogle Wave(注1・図1)。すでにあちこちで紹介されているので、ご存じの人も多いかと思います。
Google Waveは、単にGoogleの新しいWebサービスというだけでなく、その基盤となる技術が「Google Wave Federation Protocol」として公開されており、誰でもその開発に加われるようオープンソースとしての実装も始まっています。
注目を集めるGoogle WaveならびにWave(後述)ではありますが、まだ開発途中の技術であり、プロトコルとして未完成の部分も多々あります。今回の記事では、公式にまとめられている範囲において、現在のWaveプロトコルについて解説したいと思います。
Product、Platform、Protocol
Google Waveは3つの「P~」から構成されるといわれます。
- ① Product
- まず、GoogleによるProduct(製品)としてのWave。これは皆さんがよく目にするであろう、メールのようなチャットのような、あのGoogle Wave
- ② Platform
- 次にPlatform(プラットフォーム)としてのWave。開発者は自分の作ったアプリケーションをWaveに組み込んで動かせる
- ③ Protocol
- 最後にProtocol(プロトコル)としてのWave。Waveのしくみは技術文書として公開されているので、開発者は自分でWaveを作って運用することもできる
本記事で取り上げるのは③の「Protocol」で、Google Waveではない「自分のWave」を立ち上げることを考えていきます。
以下、本記事で「Wave」とはプロトコルを含めたフレームワーク全体を指すものとし、Googleが運用しているシステムは「Google Wave」として区別します。
Waveのデータ構造
まずは基本的な概念から整理していきます。ここではWaveの概念を電子メールとの対比で考えます。
waveとwavelet
電子メールでは、返信を繰り返した一連のメールのことを「スレッド」と呼びます。Waveの世界では、同じように繋がりのある一連のドキュメントのことをwaveと呼びます[2]。
waveは複数のwaveletから構成されます。waveletとは、Waveにおけるアクセス管理の基本単位です。ユーザが特定のwaveを開くと、wave内のそのユーザに関連するwaveletが表示されます[3]。
waveletの構造
waveletとは、主として次の二つから構成されるデータ構造です(図2 左)。
- ドキュメントリスト(documents)
- 参加者リスト(participants)
一つのwaveletは複数のドキュメント(document、文書)から構成されます。ドキュメントはwaveletの中でツリー状に配置されます。誰かが書いたドキュメントに別の人が返信する、といった形でドキュメントは増えていきます。
ドキュメントを読み書きするには、そのwaveletの参加者(participant)に加わる必要があります。参加者には、個々のユーザに加えて、複数のユーザからなるグループ(group)や、プログラムによる自動処理を行うロボット(robot)といったものがあります。
ドキュメントの構造
個々のドキュメントは、さらに次の二つから構成されます(図2 右)。
- XMLデータ
- アノテーションリスト(key-valueペア)
ドキュメントの内容は、内部的にはXMLデータとして表されます。また、XMLとは独立したアノテーション(annotation、注釈)という形で、文字のスタイルやハイパーリンクなどの付加情報が付け加えられます。
ドキュメントには、その役割に応じてtextとdataの二種類があります。textは、ユーザによって入力されたドキュメントそのものです。textは画面に表示されます。
dataは、画面上には直接表示されないドキュメントです。たとえば、waveletに含まれるすべてのtextの全体構造がdataとして格納されます。
waveletは共有物
waveletはサーバ上で共有されます。ここが電子メールとは決定的に異なるところです。電子メールは基本的に、受け取った人の「所有物」であり、その人が自由に扱えます。一方、waveletは送り主と受取人の「共有物」であり、サーバにある実体を二人で(あるいは大勢で)操作することになります。
Waveでは、誰かに宛てたドキュメントを後から修正したり、削除することも可能です。waveletというネットワーク上の媒体を通して、参加者が同じドキュメントを編集する、というのがWaveの基本コンセプトです。
Waveの入出力
Waveはサーバ/クライアント型のシステムです。Google WaveではWebブラウザがWaveクライアントとなりますが、WaveそのものはWebに特化した技術ではありません。電子メールと同様に、専用のWaveクライアントでWaveを読み書きしてもかまいません。
また、Waveは分散型のシステムです。電子メールが複数のメールサーバを経由して配送されるのと同様に、Waveのドキュメントも複数のWaveサーバを通して配信されます。
Waveプロバイダ
Waveのユーザは、メールアドレスと同じく"ユーザ名@ドメイン名"の形式で表されるWaveアドレスを持ちます。Waveユーザは必ず、ドメイン名によって示されるWaveプロバイダに所属します。Waveプロバイダは、しかるべきサーバさえ用意すれば誰でも立ち上げることができます。
ユーザは、すべての入出力を自分が所属するプロバイダに対して行います。ドメインを超えてメッセージをやりとりする場合には、プロバイダ間でリアルタイムの通信が行われます(図3)。
詳しくは後述しますが、プロバイダ間の通信にはXMPPというプロトコルが使われます。一方、ユーザとプロバイダとの通信については検討が始まったばかりで、まだ定まった方法がありません。Google WaveではWebブラウザからアクセスするためにHTTPが利用されます。
waveletのコピー
ユーザが新しくwaveletを作成すると、その実体がプロバイダ上に作成されます。waveletにほかのドメインの参加者を加えると、waveletのコピーが相手方のプロバイダにも作られます(図4・注4)。
コピー元となるwaveletはローカルwavelet、コピーされたwaveletはリモートwaveletと呼ばれます。ローカルwaveletは一つしかありませんが、リモートwaveletはプロバイダごとに作られます。あるプロバイダがローカルwaveletを持つとき、プロバイダはそのwaveletを「ホストしている」といいます。
waveletの内容はプロバイダ間でリアルタイムに同期されるので、ユーザは常に自分のプロバイダから最新のデータが得られるようになっています。
waveの見え方
前述のとおり、一つのwaveは複数のwaveletから構成されます。ここで特定のプロバイダに着目すると、個々のwaveはローカルwaveletとリモートwaveletとが混在した状態になりえます(図5)。
また、同じwaveであっても、waveletによって参加者が異なります。一つのトピックを中心として、アクセス権の異なる複数のwaveletを集めたものがwaveである、と見ることもできます。
Google Waveでは、個々のwaveには次のようなwaveletが含まれます(図6)。
- 共有(shared)
- すべての参加者によって共有されるwavelet
- 私信(private reply)
- 一部のユーザ間でやりとりされるwavelet。個人宛のメールのようなもの
- ユーザデータ(user data)
- 特定のユーザだけが所有するwavelet。未読情報など、システム上のデータ
こうした違いは技術的なものではなく、内部的にはwaveletの参加者の違いとして表されます。
Waveの共同編集
さて、ここまでの話であれば、Waveは少し特殊な「分散ストレージ」のようなイメージです。waveletという共有データがプロバイダ間で自動的に同期され、各自が自分のプロバイダからそれを読み書きするという構造です。
Waveに特徴的な機能として、「リアルタイムの共同編集」が挙げられます。利用者は単にドキュメントを交換できるというだけでなく、同じドキュメントを「同時に編集」することが可能です。ここがまさにWaveのコア技術の一つともいえるでしょう。
競合を解決する
単純なリソース管理の方法では、複数の人が同じドキュメントを編集すると競合が発生し、編集内容をうまく統合できないことがあります。競合を解決するにはいくつかの方法があります(表1)。
Waveが採用しているのはマージの一種で、OT(Operational Transformation、操作変換)と呼ばれる理論的な基盤をベースにしています。OTではドキュメントの状態を、連続する一連の操作(operation)として表現します。操作には位置情報が含まれており、たとえば「ドキュメントの先頭(位置0)に文字列"x"を挿入する」(図7 ②)とか、「3番めの位置から文字列"c"を削除する」(図7 ③)といった具合に表されます。
表1 競合を解決するおもな方法
方法 | 説明 | 特徴 |
先着順 | 最初に編集した人の変更内容を採用する | 誰でも同時に編集できる。タイミングが重なると、後から編集しようとした人は最新の内容を取り寄せてからやり直す |
ロック | 複数の人が同時に編集できないようにする | 同時に編集することはできない。誰かが編集している場合は、それが終わるまで待たされる |
マージ | 各自が編集した内容を後から合成する | 誰でも同時に編集できる。まったく同じ場所を編集したのでない限りは、各編集内容が適切に組み合わされる |
操作を変換する
複数の人が同時に操作を行った場合、サーバ側でそれらが合成されます。サーバは一連の操作が整合性を持つように各操作を変換(transformation)します。図8では、2番めの位置を削除する操作op2が、別の操作op1の影響で、サーバ上では3番めの位置を削除する操作op2'に変換されています。
このように、同時並行で発生する複数の操作を、矛盾のないように一連の操作に変換する手続きがOTです。
waveletの履歴
以上のように、waveletの内容は一連の操作の列によって定まります。各プロバイダは、この操作の列をwaveletの履歴(history)として保持しており、いつでも過去の状態を取り出せるようになっています。
この履歴はwaveletを同期するためにも用いられます。たとえば、クライアントがオフラインになったり、プロバイダ間の通信が一時的に途絶えたとしても、通信が再開してからその間の差分だけを転送することによって最新の状態を取り戻せます。
オープンソース化
ここまでの話でも十分に複雑ですが、実際の処理はもっと複雑です。たとえば、多数の操作を効率良く処理するために、複数の操作を合成することが行われます。また、不具合により間違った操作が行われてしまうことを防ぐためにチェックサムを照合したり、送られてきた内容が本物であるかを検証するために署名を付けることもプロトコルの一部として定義されています。
容易に想像できるように、以上のような処理を間違いなく実装することは、いくらプロトコルが公開されたとしても簡単ではないでしょう。そのためGoogleは、こうしたOTのコアとなる部分をオープンソースとして実装し、Google自身もそれを使うことで、互換性の問題を回避しようとしています。
関連プロジェクト
Googleによって開発されているオープンソースのWave実装は、「FedOne」(WEB+DB PRESS Vol.54 特別企画 第3章を参照)と呼ばれます。ただし、これはおもにプロトコルの正しさを確かめるためのリファレンス実装であり、実際の運用を目指したものではありません。現時点ではプロトコルも完全には定まっておらず、大きな変更がしばしば発生する状態ですが、FedOneとの相互運用を目指したプロジェクトもすでにいくつか始まっています(表2)。
Waveの開発者向けサイトであるWaveSandbox.comでは、FedOneとの相互運用をスタートしており、Waveを活用したソフトウェアの開発も徐々に可能となってきています。
まとめ
Waveのプロトコルについて、その全体像を見てきました。まとめると、Waveとは次のような特徴を持った共有ストレージであると考えられます。
- 任意のXML文書を保管できる
- 多人数でリアルタイムに編集ができる
- 編集内容の履歴が保持される
- 文書は複数のサーバに分散される
本記事は、第1章のみの掲載になります。
第2章からは、より具体的なWaveのしくみを解説し、自分でWaveプロバイダを立ち上げる方法を説明します。第2章以降は、「WEB+DB PRESS Vol.54」をご覧下さい。