「機械学習CROSS」レポート

2014年1月17日、「⁠エンジニアサポートCROSS 2014」が開催されました。本イベントは、Webテクノロジーに関わる人々のCROSS（クロス・交流）を通し、以下を提供することを目的として、2012年から開催されています。

「技術」「⁠年代」「⁠個人・企業」を跨いだコミュニケーションの機会
広く深い見識を得る場

そして、「⁠技術」をCROSSする、広く見識を得るということを象徴するように、非常に多岐の分野に渡るプログラムで本イベントは開催されました。

このうち、本レポートでは機会学習のセッション「機械学習CROSS」の当日の様子をお届けします。

「機械学習CROSS」

このセッションでは、セッションオーナーである株式会社Preferred Infrastructureの比戸将平氏とともに、次のスピーカーが登壇しました。

ヤフー株式会社　田島玲氏
楽天株式会社　平手勇宇氏
株式会社ALBERT　小宮篤史氏
株式会社FFRI　村上純一氏
独立行政法人産業技術総合研究所　油井誠氏
株式会社Gunosy　福島良典氏

アジェンダは次の構成で、前後半1時間ずつの計2時間に渡って開催されました。

前編
- 機械学習セッション概要
- パネリスト自己紹介
- 機械学習「超」入門
- パネリスト活用事例紹介
後編
- パネルディスカッション

本レポートでは、これらのアジェンダのうち、公開されているスライド資料（前編、後編）からは読み取ることのできない、後編のパネルディスカッションをレポートします。

パネルディスカッション

機械学習導入の展望：どこから導入が進むのか

パネルディスカッションでは、まず最初に「機械学習導入の展望：どこから導入が進むのか」というテーマから始まりました。

まず最初に田島氏が、「⁠間違えても怒られないところ」と回答しました。同時に、「⁠広告やレコメンドはまさしくそういうところで、また（処理の）ボリュームがあるので人手での対応が難しいという点もやりやすい（導入しやすい⁠）⁠」とも意見を述べました。

一方で、「⁠弊社の場合、広告の審査はマンパワーを使っている。例えば薬事法に違反している広告が漏れて出てしまうようなことはまずい」と、間違えるとまずいところには人手で対応している例を示しました。

次に平手氏は「人間ではできないような、大規模なデータに対する、何かしらの知識発見、ユーザの分類といったところから、機械学習の導入が着々と始まってきているという印象」と回答しました。

小宮氏は「マーケティングの場合、利益をいかに向上させるか、というところでよく使われているのではないか。ウェブマーケティングでは、レコメンドのような利益を追求するところで使われるイメージ。一方、リアルなマーケティングでは、需要予測のようなコストを削減するという観点で良く利用する印象」と意見を述べました。

村上氏は、田島氏の「間違えても怒られないところ」という意見に同意しつつ、同時にマルウェアの検知において、「⁠日本だとすごく誤検知が嫌がられるが、自分の個人的な感覚では、欧米などでは多少の誤検知があっても検知が格段に上がるのであれば許される、そんな文化の違いを感じる」とし、怒られる、怒られないの敷居は文化によって異なると指摘しました。

油井氏は「質の良い訓練データを集められるところ」「⁠利益向上に対して直接的に機械学習の結果が反映されるところ」の2つと回答しました。また、「⁠広告業界が機械学習のフロンティアになっているが、これは直接レベニューに関わるところだから」と利益向上につながる機械学習の利用が、特に進んでいると意見を述べました。

福島氏は「儲かるところ」と油井氏と同様の回答をしつつ、同時に「⁠（⁠現在機械学習の導入が進んでいる）男女予測やスパムフィルタリングなどは問題が明確で、プロセスにおいて人の意思決定が介在しない。人が意思決定者として介在すると、意思決定者を説得したり、意思決定者が機械学習の中身を理解する必要が出てくる」と述べ、意思決定のプロセスに人が介在しない領域で機械学習の導入が特に進んでいる指摘しました。

また、「⁠意思決定者が介在する場合」における、今後の機械学習の導入については、「⁠意思決定者に説明できないモデルは導入が難しい。シンプルなモデルを使っていくのか、それとも機械学習はそういうものだという理解が（意思決定者の中で）進むのかはわからない」と意見を述べました。

さらに、この「意思決定者の理解」という点において福島氏は、「⁠（⁠機械学習の利用は）やらないとわからないし、やってみたけど駄目だったということが普通にある。このことを理解してる人が経営層にいることが（機械学習の導入には）大事」と言及しました。

機械学習は精度で人間に勝てるのか

次に「機械学習は精度で人間に勝てるのか」をテーマに議論が行われました。

このテーマについて、福島氏は、「⁠機械学習が人間に勝つパターンは、チェスや将棋のように勝ちの基準が明確で、教師データがいいとき」とし、一方で「価値観があいまいな部分は人間の方が得意」と意見を述べました。

またこのテーマの中では、同時に次の2つのサブテーマも設定され、それぞれ意見が出ました。

専門家の感と経験による判断と、過去データからの学習に基づく判断の取捨選択は必要なのか

この点については油井氏が「チェスは人間以上、将棋は素人では勝てなくなっているが、これは専門家のデータがDBに蓄えられれて、機械学習に利用しているから」とし、「⁠専門家の経験はデータ化できる。専門家の経験と過去データからの学習は、対立軸にあるものではない」と、そもそも取捨選択は必要ないと主張しました。

機械学習モデルの解釈性のなさはWeb業界ではどこまで障壁になるか

この点については田島氏が、「⁠ブラックボックスでもいいから精度高く、というのがはまるところはすごく少ない。なんでこのような結果が出てしまったのかという場合、モデルを直すのか、事後処理で対応するのか、こういう（ブラックボックスの）場合に対策を打ちづらい」とモデルの解釈性の無さが、モデルの精度改善の障壁になるという意見を述べました。

ベストプラクティスをどう学ぶか

次に、当初のアジェンダには無かった「これから機械学習を学ぶ人がベストプラクティスをどう学ぶか」という点について、急遽議論されました。

この点について田島氏は、「⁠トライ＆エラーでモデルの精度をあげていくことになる。その中で大事なのはKPIを決めること。でないと迷走してしまう」と回答しました。

油井氏は、「⁠アンサンブル学習が良い。複数の手法で予測した結果を統合する。複数のモデルを作っといて、マージしてオペレーティングするのが安定的な解」と意見を述べました。

この油井氏の意見に対して、比戸氏も「モデルは単一である必要は必ずしもないので、たくさんモデルを作ってみんなの意見を総合し、みんなが正しいと言っているのことは大体正しいと判断するのは確かによく知られている」と同意しました。

これまでにあった失敗談

パネルディスカッションの最後には、これまでの経験の中での失敗談について、自社、他社を問わずに紹介しました。

田島氏は「企業の活動は戦略とオペレーションの2つがあり、機械学習が生きるのはオペレーション。戦略のような、データを貯めた期間と違う事が起きるかもしれない、そういった状況は（機械学習は）苦手。できるだけ時間軸が短くて、確実に同じ構造が成り立つ、というところで機械学習は生きる」と述べました。

小宮氏は「機械学習はあくまで手段で、ドメイン知識によるフィルタリングが必要。他社事例だが、ECサイトのレコメンドで冷蔵庫をカートに入れた際に、他の冷蔵庫をレコメンドされた。冷蔵庫を2つも購入する顧客がいないことを考慮し、冷蔵庫に関連する商品や他の電気製品をレコメンドするようなフィルタを挟むべきだった」と事例を紹介しました。

まとめ

本レポートでは取り上げなかったものの、本セッションの前半部分では「機械学習とは何か、何ができるのか」を数式を使わずに説明する、機械学習「超」入門が行われるなど、初学者向けの内容も取り上げました。一方、機械学習の各利用シーンにおける代表的な企業による事例紹介と、パネルディスカッションは、経験者にとっても実用的な内容でした。こうして、参加された初学者の方、経験者の方、双方にとって、本セッションは実りのあるセッションとなったのではないでしょうか。

当日参加されなかった方で、本セッションに興味がおありの方は是非、当日のスライド（前編、後編）やUstreamの録画映像をご覧ください。