あけましておめでとうございます。情報・システム研究機構及びリンクト・オープン・データ・イニシアティブの加藤です。本稿では昨年国内でも盛り上がってきた行政のオープンデータについての紹介と技術的な話、そして今後の展望を簡単に語ってみたいと思います。
オープンデータ公開の動き
データを誰もが自由に利用・再利用・再配布できるように公開するオープンデータの動きが国内外で進んでいます。
オープンデータの中で大きな位置をしめるのが行政のデータであり、日本では地方自治体の動きが盛んになってきています。2012年1月に福井県鯖江市が日本ではじめてオープンデータの取り組みを行いました。それ以降、昨年末の時点で20以上の自治体が公開するようになっています。公開されているデータは自治体によって様々で、AEDや公共施設、防災関係、各種統計、地理、観光、育児等があります。全国に1,700以上の自治体があることを考えるとまだ始まったばかりと言えますが、今年もこの動きはさらに加速していくでしょう。
一方、国レベルでは、昨年12月20日に日本政府としてのデータカタログサイト が公開されました。経済産業省が昨年1月に先行してOpen DATA METI を公開していましたが、これでようやく各省庁のデータを集約して提示できるようになったため、日本も国として一つのスタートラインに立てたと言えるでしょう。
オープンデータの指標
オープンデータを公開するときの段階指標としてよく取り上げられるのが、Webの発明者であるティム・バーナーズ=リー が提唱している、5つ星オープンデータ です。
この5段階を1段上がる毎に、データやソフトウェアの再利用性等が向上するという主張になります。
最初の1つ星は、オープンライセンスの適用です。データカタログサイトに対するネット上の反応を見ていると、「 PDFばかり」「 JSONがない」などのファイルフォーマットに対する意見が見られます。利用者としてそう言いたくなるのは理解できますが、データカタログサイトの最初の目的はオープンライセンスを省庁の保有データに適用することです。まず法的な問題をクリアしておくことが、オープンデータの最初の一歩になるからです。オープンライセンスとしてクリエイティブ・コモンズ・ライセンス 表示 2.1 日本が採用されており、政府の他のサイトよりもデータカタログサイトの利用規約が優先すると明示されています。つまり、これまで省庁のサイトに置かれているAll rights reservedなファイルや、別の利用規約のもとで公開されていたファイルも、データカタログサイトに掲載されているものについては適切な表示をするだけで自由に利用・再利用・再配布して良いことになりました。
2つ星以上が技術的な内容になります。2-3つ星はファイルフォーマットについてです。2つ星は機械可読なフォーマットであること、3つ星はプロプライエタリなフォーマットではなく、オープンフォーマットであることです。オープンフォーマットは、誰もが自由に使えるフォーマットで、例としてCSV(*SV)やXML、JSON等が挙げられます。オープンデータを公開していく上での一つの目標は、この3つ星を満たすことです。オープンライセンスでオープンフォーマットなデータであれば、法的にも技術的にも誰もが自由に利用・再利用・再配布できるデータと言えます。国としては前述の通りまだこれからになりますが、オープンデータを行っている自治体は、CSVやXMLでのデータ提供まで行っているところが多いです。これは、自治体レベルのほうが扱っているデータが小さく、整備しやすいという面もあるかと思います。
3つ星まではファイルフォーマットの話でしたが、その先の4-5つ星はLinked Data と呼ばれている手法の話になります。Linked Dataについて詳しくは書籍『Linked Data: Webをグローバルなデータ空間にする仕組み 』を参照してください。Linked Dataは、その洗練されたデータアクセスとデータモデルによって、ただデータのファイルを置くだけよりも再利用性を高めます。
オープンデータの事例
4-5つ星のオープンデータについては、イギリスが先行しています。Ordnance Survey (国土地理院に相当)が公開している5万分の1地名辞典 を見てみましょう。イギリスには“ Little London” という地名が33ヶ所ありますが、あるデータに“ Little London” が出てきたときに、そのままではどこの“ Little London” かを区別できません。そこで、グローバルな識別子であるURIを使って“ Little London” を区別できるようにします。そして、URIにアクセスしたら明示的にそのURIが識別するデータに関する情報を返すようにします。“ Little London” のURIはhttp://data.ordnancesurvey.co.uk/id/50kGazetteer/140011 やhttp://data.ordnancesurvey.co.uk/id/50kGazetteer/140012 等になります。ここで重要なのは、同じURIで機械可読なフォーマットも取得できるようになっていることです。
さらに、識別したデータから他のデータへの関係がある場合があります。Ordnance SurveyのCode-Point Open Linked Data では、郵便番号(例:SO16 4GL )や地域(例:City of Southanmpton )を識別した後に、それらの包含関係等もすべてデータとして記述されています。関係はデータのURIから他のデータのURIへのリンクとして表現します。5つ星はその延長であり、関連するデータが外部にある場合、外部のデータへリンクしましょうということです。それにより、外部のデータのURIにアクセスするだけでデータを引っ張ってきて利用することができます。また、外部リンクによるネットワーク効果も得られます。
Linked Dataでは、これらを記述するために、RDFというグラフデータモデルを使用します。RDFのファイルフォーマットとしてはXMLやJSON 、あるいはTurtle 等が使われます。最近W3Cでは5つ星としてのCSVを検討するWorking Group というのも立ち上がっています。
日本では一部の自治体がLinkData を通してRDFとして扱えるデータを公開しています。また、横浜市金沢区のかなざわ育なび.net はシステムの裏側で同等の技術を使っているそうですが、現状表に出ているデータは普通のCSVファイルのみです。国においては、国立国会図書館は日本ではじめてLinked Dataとして典拠データ を公開していますが、残念なことにオープンライセンスではありません。これは将来data.go.jpに入れば変わるでしょう。
今後の展望
今後の国内の展望について、国レベルでは、これから機械可読なデータを増やしていくフェーズに入るでしょう。それと並行して、データの軸となる様々なコード体系や語彙の整備がされていくことになると思います。これらは識別するべきもので、5つ星として提供する候補になります。先行して統計センターが次世代統計利用システム にて都道府県・市区町村コード情報 の提供をはじめています。また情報処理推進機構では共通語彙基盤 プロジェクトが走っています。2016年施行予定の企業番号もここに関係してくるはずです。これらの成果は自治体や民間にも関係してくるでしょう。
自治体については、昨年の傾向から今年流行りそうなデータ公開は育児関係と地理関係だと思っています。育児関係の例としては、かなざわ育なび.net のインパクトが大きいです。広い意味で育児に関連する行政のデータを集約・加工してサービス提供まで行っており、真似したい自治体も多いと思います。地理関係については、昨年後半にいくつかの自治体がshapeファイルを公開するようになりました。まず保有しているshapeファイルを出して、それをさらにGeoJSON のようなオープンフォーマットでも提供するといった事例が出てくるのではないかと予想しています。
国のデータカタログサイトは先月できたばかりですし、地方自治体は一部の先駆者達が駆けている段階で、日本の行政のオープンデータはやっとはじまったというところです。2014年は日本の行政オープンデータ飛躍の年と言われるかもしれません。