あけましておめでとうございます。Preferred Infrastructureの海野と申します。このところ人工知能という言葉をよく聞くようになりました。名だたるIT関連企業が、こぞって人工知能をビジネス化しようとしているという印象をうけます。こうした背景には何があるのでしょうか。そして、本当に近い将来に人工知能による大きなビジネスが花開くのでしょうか。本稿では、ここ数年の技術開発のトレンドの変遷を通して、人工知能ビジネスの動向を探ります。
人工知能のこれまで
「人工知能」という言葉に対して、どのような印象を受けるでしょうか。人間と共存し、言葉をしゃべり、自分で思考するロボットのようなイメージを持つ方は少なくないと思います。もちろんこうした人工知能を見たことがないように、現状ではこうした人工知能はありません。このような汎用的な知能をもつ人工知能は「強いAI」とよばれ、より具体的な部分問題を解く「弱いAI」が今の主流となっています。
人工知能の研究は以前にも何度かブームがありました。特に1980~1990年台あたりに人工知能のブームがあり、強いAI実現が夢見られました。しかし、成功には至らず一気に下火になります。人工知能研究は、その後より具体的な問題にフォーカスする形で、つまり弱いAIをブラッシュアップする形で研究が進んできました。この中には機械学習など、あえて人工知能という言葉を使わずに各領域ごとに研究が進められたため、人工知能という言葉自体を聞くことも少なくなりました。
ここに来て再び人工知能というキーワードを度々目にするようになりました。何が起こったのでしょうか。実際のところ、急に注目が集まったため「わかりやすい」言葉として人工知能という言葉を再度使っているような印象はあります。機械学習や自然言語処理といった分野も、人工知能の一分野という見方ができますし、これらの技術は特にビッグデータ解析の技術として以前から取り上げられています。
では、なぜ急に注目をあびることとなったのか。1つには技術的な進歩があったこと。もう1つは、それに呼応するように各企業が力を入れ始め、大々的に報道されるようになったことが、理由として考えられます。メディアが取り上げるほど企業は力を入れ、力を入れるほどメディアも取り上げる、正のスパイラルが起こっているようにさえ感じます。本稿では主に技術的な側面を見ていきます。特に大きな進歩となっている深層学習という技術と、知能の処理に欠かせない自然言語処理のプロジェクトに関して見ていきます。
深層学習の流行
人工知能研究とその関連領域で、深層学習(Deep Learning)という技術が大きなブームとなっています。GoogleやFacebookといった企業がこの技術の研究開発に本格的に乗り出すと同時に、関係する研究者の引き抜きや、ベンチャー企業の買収のニュースが相次いだため、この言葉をご存じの方も多いでしょう。
まず、深層学習とは何でしょうか。一言でいえば、かつて流行した人工ニューラルネットワーク(以下、単にニューラルネット)という技術の再来です。ニューラルネットとは、脳細胞のネットワークを模倣した手法全般を指します。ただし、かつてできなかったレベルに大規模で深いネットワークを構成することで、他の手法群よりも劇的に精度の高い結果が得られた点が注目を浴びています。例えば画像認識の分野では、それまで26%程度だったエラー率が、深層学習の登場により一気に16%までエラー率を下げ、それ以降も順調に更新し、昨年には7%を達成しました。また、音声認識の精度向上にも一役買っており、音声認識系サービスの裏ではすでに実用化されていると言われています。
ニューラルネットもかつて注目を浴びた技術です。どんな入出力の関数も表現できるという、表現力の高さが注目を集めました。では、なぜ一時期下火になったのでしょう。期待ほどの精度が出なかったこと、扱いにくかったからだと思われます。ニューラルネットは学習が難しく、よい精度を達成できないことが多かったのです。そのため、ポテンシャルがあるが学習が難しいというのが以前の見解でした。直後に現れたサポートベクトルマシンは扱いやすく、主役を取って代わられます。その後、機械学習研究の流行はトピックを転々としますが、ニューラルネットに再度注目が浴びるのはずっと後になります。
当時の研究者は見る目がなかったのでしょうか? 実際、筆者は今日に至るまで、「ニューラルネットは表現力が高い」という事実は知っていましたが、実用的ではなく、見向きもしませんでした。見る目がないと言われても仕方がありませんが、10年前ニューラルネットを推している人は周囲にほとんどいませんでした。また、必ずしも高い成果を出していたわけでもありません。例えば、自然言語処理の領域で、共通タスク形式で行われるCoNLLという学会の2003年のタスクでは、Long Short-Term Memoryという昨年最も流行した深層学習の種類の1つを使ったチームは、参加16チームの中で大差を付けられての圧倒的な最下位でした[1]。この状況で、10年後に爆発的な大流行を予想できる人はいたでしょうか?
では、なぜ急に最近になって成果を上げられるようになったのか。ひとつには、まず学習の速度がこの10年で劇的に向上したことでしょう。コンピュータの性能が10年で何倍にもなりました。それに加えて更に高速なGPUを用いるのが一般的になりましたし、これを複数台並べることも可能です。また学習手法自体にも進展があり、特に2000年台中頃から流行しているオンライン学習は、従来の学習手法より数十倍、数百倍も高速です。筆者が学生の頃に丸一日かかっていた学習が、今では数分で終わるようになりました。CPUの性能向上を差し引いても高速です。その他にも様々な理由が取り上げられますが、後に覆ったりしており、はっきりとした成功の原因はよくわかっていません。
現状では日に日に多くの領域で深層学習が適用されて、日夜研究が進んでいます。言語と画像にまたがった、領域横断的な研究も進んでいます。あまりにスピードが速いので、最新の情報は学会よりも研究者同士がSNS上でやりとりしています。1年の間にいくつも注目される手法が開発され、トレンドも移り変わっています。逆にこうした変化のスピードが早いことは、新規に参入しても追いつけるチャンスがあるのかもしれません。
自然言語処理の世界
自然言語処理(以下、言語処理)とは、英語や日本語などの人間が話す言葉を機械に処理させる技術の総称です。有名な例では、機械翻訳などがこの分野のタスクです。
言語処理でここ数年で大きな話題になった成果が、IBMのワトソンプロジェクトでしょう。アメリカの有名なクイズ番組に自動回答するコンピュータのシステムが出演し、人間のチャンピオンに見事勝利しました。この研究は、質問応答と呼ばれ言語処理の中でも有名な研究分野の1つを応用したものです。質問応答というのは自然文で出された質問に対して回答するタスクです。単なる検索とは違い、質問が何を意図しているのか推定したり、回答を正しく構築する必要があります。この技術は、医療の自動診断などへの応用に向けて製品化を進めていると報道されています。
代わって国内で今注目されているのが、国立情報学研究所の行っている「ロボットは東大に入れるか」プロジェクト(以下、東ロボ)です。2021年度までに東京大学入試を突破することを目標にしています。クイズに答えられるのだから、大学入試はその延長で突破できるのではないか? そのように考えられがちですが、そう簡単にはいきません。まず、問題の質が多様です。クイズの場合、回答は単語でした。入試の場合、回答は単語に限らず、数値や文だったりします。問われる能力も知識のみならず、論理展開や文書構成力などが必要です。それ以上に、一般常識が備わっていないと、問題文も読めない可能性があります。例えば、「お釣りはいくらでしょう」という問題を解くには、「モノを買ったときに渡したお金との差分が支払われる」という常識を知っている必要があります。これを数式で表現して初めて問題に取り組めます。こうした常識は曖昧な上に膨大であり、単に複雑な計算ができるだけでは回答できません。一方で、人工知能が人間社会で活躍するためには必要な機能であることもまた事実でしょう。
このような知能に直接関わりそうな研究プロジェクトが次々に行われていることは、注目に値します。ワトソンが良い成果を上げたことが研究者を触発した面はあるのではないかと考えています。ワトソンプロジェクトの開始当初、研究員たちは成功に対して懐疑的であったそうです。筆者も難しいだろうと思っていました。消極的だと思われるかもしれませんが、何年も自然言語を扱っていると、人間の言葉に対する能力があまりにも高く愕然とすることが多いです。商業的に成功している言語処理の技術の大半は、直接的に人間と比較するのではなく、大量の情報をさばいたり高速に処理するなど、機械に得意な面をうまく活かすことで価値を出しています。検索エンジンの価値が、高度な言語処理よりも、大量の文書から高速に情報を引き出せる部分にあることに注目してください。東ロボはより知識、論理、常識といった知能に近い能力を必要とするタスクです。このプロジェクトが成功するのであれば、人工知能研究に一層の弾みになるのは間違いないでしょう。
言語処理においても、知能的なプロジェクトで次の成功を収めるのに、深層学習が鍵を握っている可能性は高いです。実は、現状では深層学習の技術は、言語処理の世界ではそこまで大きな成果は現れていません。筆者が特に注目するのは、常識や論理といった、今まで扱いに困っていた“もやっとした”領域にこの技術が使われるのではないかということです。これらの領域は、どのように知識を表現して処理すればいいのかが根本的によくわかりません。そのため、深層学習の高い表現力が、ピッタリと適合するのではないかと考えています。
終わりに
一口に「知能」といっても、知能によって実現する機能は多岐にわたります。筆者は「弱いAI」の立場なので偏った見方かもしれませんが、汎用的な「強いAI」の出現の前に、専門特化型の「知能」によって狭い範囲の仕事が効率的に解かれる可能性が高いです。狭い領域で知性的な処理を自動化することによって成功してきた分野はすでにたくさんあります。Googleは広告の自動配信に、Amazonは製品の自動推薦に、それぞれ人工知能の一分野である機械学習を適用して多大な利益を上げてきました。ですから、商業的な意味で人工知能を実現するのであれば、知性的な判断が必要な領域・アプリケーションを見定め、その範囲で必要な技術に研究開発を集中させるのが近道だと考えています。Googleの地図データを利用した自動運転車、Facebookの自社サービス内の写真の解析、IBMの音声による自動応答技術。一口に人工知能応用といっても、各社が既存ビジネスと知性との高い親和性のある領域に的を絞っているように感じます。
この中で深層学習の技術は強力な1つの武器となるでしょう。すでにいくつかのタスクで明らかになってきたとおり、従来難しいと思われていたタスクに対しても劇的な性能改善が見られました。今まで精度面で不可能だと思われていたタスクは、深層学習を応用することで解決できないか、再検証する必要があるでしょう。その先には、今まで不可能と思われていた知的なアプリケーションの出現が待っているかもしれません。
昨年1年だけでも大量の新しい発見と、様々な成果が報告されました。2015年、今年も沢山の発明が生まれることになるでしょう。