さて、今回から具体的な手法について見ていきましょう。
この連載のテーマは「ビジネスは変わるのか」なので、あくまでビジネスに活用できる、という視点で見ていきます。
ディープラーニングとは何か?
まずは、やはり前回でも触れた、ブームの発端となったディープラーニングを取り上げないわけにはいかないでしょう。
現在でもブームの中核をなしている大きな要素の1つです。ところが困ったことに、現在のところビジネスを変えるという意味ではディープラーニングのインパクトというのはさして大きくありません。これはあくまで「現在のところ」であり、今後どうなるかは未知数ですが、とはいえまだその道筋もあまり見えていないというのが正直なところです。
ディープラーニングが騒がれる理由
ではなんでそんな騒がれるのかというと、いくつかの理由があります。
1つ目は、ディープラーニングそれそのものは、大きな進歩があったのは事実だからです。とくに画像認識においては、大きな成果がありました。ただ、現在のところそんなにビジネスでの活用できるポイントがないというだけです。
2つ目は、このブームを恣意的に盛り上げたい人たちがいるからです。その中には、よくわかっていて盛り上げたい人たちと、よくわかっていないけど盛り上げたい人たちの両方がいます。
よくわかっていて盛り上げたい人たちというのは、「そんなにビジネスに活用できないのはわかってるけど、ブームがしぼまないでほしいから活用できそうということにしておこう」というスタンスです。研究者や一部の経営者ですね。
よくわかっていないけど盛り上げたい人たちというのは、「なんかすごそうだ!」という感じです(笑)記者や一部の経営者です(爆)。
ちなみに、この分類だと記者は全員よくわかっていないほうに分類されているように見えますが、そんなことはありません。よくわかっている記者は、別に恣意的にブームを盛り上げようとはしないだけです。
まずは簡単にディープラーニングの基礎から
それはさておき、ディープラーニングの中身について見てみましょう。
といっても、以前とは違ってだいぶディープラーニングの解説記事も増えてきたので、さらっと流します。「ディープラーニングの定義」という意味では、多層ニューラルネットワークですが、ディープラーニング=多層ニューラルネットワークではありません。
では何かというと「多層ニューラルネットワークのうまくいく方法」というのが、正確なところです。
歴史的経緯についても流しますが、
- ニューラルネットワークを多層にすれば良い→そう簡単ではない→うまくいく方法を見つけた=ディープラーニング
ということです。
ポール・グラハムによる、ベイズ分類器を使ったスパムフィルタのようなものと捉えるとわかりやすいでしょうか。ベイジアンスパムフィルタは確かにベイズ分類器を使っていますが、その重要な部分はベイズ分類器という中核を成す理論だけではなく、どうやって単語を抜き出すか、いくつ抜き出すか、判定閾値をいくつにするか、などの「スパムのフィルタリングに対してベイズ分類器をどう使うか」という職人技的な部分も、同じく重要です。
同様に、ディープラーニングも多層ニューラルネットワークを(特定のデータに対して)うまく使えるようにした、という部分が非常に重要なのです。特定のデータに対して、という部分もまた重要で、どんなデータも自在に処理できるような人工知能というものはありません。
画像に対して、音声に対して、自然言語に対して、それぞれその最適な仕組みは異なります。そしてその最適な仕組みを見つけるのは人間です。
機械学習の最適な仕組みを見つけるのは人間
ちなみに、この「最適な仕組みを見つけるのは人間」というのが、機械学習の本質の1つです。ディープラーニングからは話が少し逸れますが、重要な部分なので解説します。
- 第1段階
人間がデータを処理する。
- 第2段階
一定のルールを作成し、機械がデータを処理する。
- 第3段階
一定の仕組みを作成し、機械がルールを作成できるようにして、機械がデータを処理する
この第3段階がいわゆる「機械学習」です。
第2段階では、機械がどう処理するかのルール自体を人間が作っています。たとえば「バイアグラ」とあったらスパムと判定する、などです。これは人間による指示であり、機械による学習という要素が入っていません。
第3段階では、どういう単語があるとスパムなのかを、機械自体が判断し、かつ学習していきます。ただ、第2段階と比べて、第3段階の仕組みを作るのは、難易度が非常に高いと言えます。現状は、その、難易度が高い部分を人間が負っています。画像ならCNN、自然言語ならRNN、関数は…、パラメータは…、閾値は…、などです。
別の言い方をすれば、第2段階では値も関数も人間が決めるのが、第3段階では値は機械が決めて関数は人間が決める、とも言えます。ただ、関数の振る舞いを決める値は人間が決めるので、正確ではない部分もあります。
この第3段階の先にあるのはなんでしょうか。
- 第4段階
機械が仕組みを作成し、機械がルールを作成し、機械がデータを処理する。
このようになるでしょう。ここまでくれば、これはもう「人工知能である」と言えますす。私は、個人的には、第3段階は人工知能というより機械学習というほうがしっくりきます。
ちなみに今、この第3段階と第4段階は、弱いAI、強いAIという呼ばれ方をするケースも増えてきましたが、「弱いAI、強いAI」ではなく、「機械学習」と「人工知能」で良いのではないかと思います。
しかし、今、第3段階も人工知能と呼ぶ場合が見られます。これは、前述したように恣意的に盛り上げたい人たちがいるからではないでしょうか。そして、わかっていて騒ぐ人はともかく、わかってなくて騒ぐ人は、この表現の混乱?によって「人工知能は人間を支配する」というような幻想を抱きます。ちなみにそんな可能性は今のところまったくありません。
ディープラーニングの目的は対象データの特徴量の抽出
さて話を戻すと、ディープラーニングの本質は、画像、音声、自然言語といったデータの処理に適した仕組みを与えられた多層ニューラルネットワークです。繰り返しになりますが、この中でも画像に関する成果が突出しています。逆に、自然言語分野は、まだディープラーニングが得意としていなくもない、といったところです。
ディープラーニングの目的は、対象データの特徴量の抽出です。次元の削減、圧縮、いろいろな呼び方がありますが、大量のデータから重要な部分を抜き出すことです。
たとえば自然言語であれば「文章のトピック」になります。ほかにも、GoogleやFacebookの画像から人間をタグ付けするというのは、その画像から「◯◯さん」という特徴を抜き出していることになります。
ディープラーニングに対する誤解
ここまでディープラーニングの本質を説明してきました。ここで、よくある誤解の1つを紹介します。教師なし学習という、ディープラーニングが注目されたキッカケとなった言葉です。
たとえば「猫の画像を認識する」という学習について考えます。
機械に対して「これは猫の画像」という教師データを与えなくても、大量の画像を入力していった結果、自然に猫の特徴をクラスタリングした、というのが教師なし学習です。しかし、これは「猫の特徴」をクラスタリングしたわけではありません。そもそも猫の特徴を抜き出したならそれはクラスタリングではなくて分類です。
機械が自然と猫の画像をクラスタリングしたことは、「なんとなくこういう特徴がありそうです。ちなみにそれはなんなのかわからないですが」と言っている(提案している)だけです。いや言ってはいないですが。
「あ、それは猫だね」という判断は、あくまで人間が意味を見出しているのです。この一連の流れが、教師なし学習ですが、まだ第3段階です。
もし機械が「画像を見る限り、これは人間がいわゆる猫と呼んでいる生き物ではないでしょうか」と言ったら、それはすごいわけで、まさに人工知能です。これこそが前述の第4段階であり、強いAIになります。しかし、今現在は実現できません。
ただそれにしても、ディープラーニングによって、教師データを与えなくても特徴量の抽出ができるようになった、しかも「教師データを与えた場合よりも認識の精度が高くなった」という点が、十分画期的だったわけです。
教師データを与えなくても良くなっただけでは、ここまで注目されなかったでしょうし、人工知能ブームにはつながらなかったでしょう。精度が高くなった点が今のブームにつながっていると思われます。ここが、よくあるディープラーニングに対する誤解でもあります。
ディープラーニングはビジネスをどのように変えるのか?
ここまでディープラーニングの基礎について説明してきました。では、ディープラーニングはビジネスをどう変えることができるでしょうか。
今のところ、その期待が大きな分野は、画像認識です。あとは自然言語処理ですが、現状はまだ「ディープラーニング最強感」はありません。このあたりは、まさに日進月歩であり、そうなる可能性も十分あるでしょう。
2016年時点でディープラーニングがビジネスとして影響している分野
しかし、画像認識(や自然言語処理)では、まだ限定的な分野でしかビジネスを変えられません。もっと言えば、世の中が大騒ぎしているほどの市場は、今のところありません。
それでは、具体的に画像認識がお金になる分野はなんでしょうか。
たとえば有力なところでは、医療における画像判定などです。実際、ディープラーニングはすでに人間の能力を超える精度を出し始めているので、今までは見つけられなかった病変などを発見できる可能性は十分にあり、それはかなりの市場の可能性を秘めています。
また、監視カメラから人物認識をする、というのも防犯という市場の可能性は十分あるでしょう。
一方で、SNSにアップした写真に人をタグ付けするというのは、おもしろいテクノロジーというだけで、市場にはならないと考えます。SNSにあるから便利な機能ではありますが、「タグ付けするのにお金を払いますか」と言ったら払う人はほとんどいないでしょうし、そういったものは市場とは呼びません。
これらをまとめると、もし現時点で「ディープラーニングは大きな市場が見込めます」という意見を見かけても、(その意見をする人は)現状をわかっていないか、わかっていて恣意的なコメントをしているかのどちらかです。
しかし、前述したように健康や安全という分野は、金銭的な対価の基準がないので、それ自体の本質的な価値は大きいと言えます。
まとめると、ビジネス面では「ディープラーニングに関する」ではなく、「画像認識に関する」市場が大きく変化してきているのであって、「ディープラーニングによる画像認識には大きな市場が見込めます」という表現をする人がいれば、(その真偽はともかく)現状をきちんと理解して正直にコメントしていると言えます。それはその人の意見ですから。
次回は機械学習が市場を形成する可能性を考察
この先、人工知能、機械学習が市場を形成する可能性としては、2つの方向性が考えられます。1つは人間を超える精度を出すこと、もう1つは人間ではそこまで隈なくできない処理をすること、です。
前者は画期的ですが、お金になるのは当然後者、というのが私の個人的な意見です。
次回はこのあたりについて解説します。