『機械学習を解釈する技術』&『施策デザインのための機械学習入門』著者陣によるクロストーク

第3回研究を実務に活かすには ―執筆陣がお勧めする書籍の「使いどころ」

2021年8月に発売された『機械学習を解釈する技術』の著者である森下光之助氏と『施策デザインのための機械学習入門』を共著した齋藤優太氏と安井翔太氏の3人が集まり、執筆の経緯や書籍への想いについて、これまで2回にわたってお届けしてきました。今回はその最終回です。

論文との向き合い方

安井:今回お2人が書籍で執筆した内容は、ここ数年の最新と言っても良いレベルの研究成果を実際のデータサイエンティストが使えるようにするものだと思っています。なので、お2人の論文や研究者との関わり方とかを聞くとおもしろいんじゃないかなと思います。

齋藤:たぶん、論文を書いてる研究者と、実践者として論文を読む人たちの間で、論文の役割に対する認識のギャップがある気がするんです。もちろん論文を書いてる研究者たちは(研究者ではない)読者が働く会社が抱えている個別の課題や問題設定は知らないので。あくまで個々の研究分野の中の価値観で、新規性があり、おもしろいと思ってもらえるだろうという基準で論文を書いていると思います。

それを踏まえた上で、実務のデータ分析者は、論文の内容をそっくりそのまま受け取るのではなく、自身が取り組む課題に見合う部分を意識的に抽出して、それを自社の設定、自社が抱えている問題設定に沿うように変形する/組み合わせる意識が必要かなと思っています。よくある、論文を実装して使ってみたけど上手くいかなかったといった例は、そのギャップが表面化したものだと思います。論文はあくまで基礎となる、いくつかの選択肢を与えてくれる情報源にすぎず、どう変形して使えば自社の設定で機能するのかを、自分の中で納得できていなければいけないと思います。

そういう自由な発想や感覚で動けている人はまだ少ないのかな、と感じることがありますし、今回の本にはとりあえず反実仮想に関連する分野で、研究と実務を橋渡しする手助けになれば、という気持ちも込めています。研究と実務を橋渡しするためには、論文の内容を読んだままに使うよりも、定式化や提案手法の根底にある考え方を上手く捉えて、それを自由に変形して自社の課題に合うようにまとめ上げる能力が必要なんだと思います。すごく難しいとは思うのですが、そこまでやらないと、せっかく時間をかけて論文を読んでもその内容をうまく使えないことになりかねません。

画像

齋藤優太(さいとうゆうた)

2021年に、東京工業大学で経営工学学士号を取得。大学在学中から、因果推論と機械学習の融合技術(反実仮想機械学習)や、バイアスを含むユーザの行動ログに基づく推薦・ランキング学習に関する研究を行う。その過程で、ICML・RecSys・SIGIR・WSDM・SDMなどの機械学習・データマイニング領域におけるトップレベル国際会議にて査読付論文を発表。2020年には、半熟仮想株式会社を共同創業。以降当社の科学統括として、複数の国内テクノロジー企業との共同研究の取りまとめを担当、専門技術の社会実装や大規模実証研究に取り組み、その研究成果の一部が日本オープンイノベーション大賞・内閣総理大臣賞を受賞。2021年秋からは、Cornell University、Department of Computer Science(Ph.D. program)に進学し、関連領域の研究を継続する。

Twitter:@usait0
Website:usaito.github.io

安井:ありがとうございます。意識的に抽出するという部分は、2つの抽出方法があるように思いました。1つは、1本の論文を読んで、その中から情報をうまく取捨選択して構築して、考え方を作り上げる方法です。それに対してもう1つは論文自体に、この論文は元々ある課題設定と解決策に多少改善をした程度のものだから重要じゃないけどこっちの論文は重要そうだ、といった選択をするやり方もあると思いました。その点はどう思いますか。

齋藤:それはどちらかというと研究者的な視点なんじゃないですか? 実践者の立場で論文を読むときには、たとえばIPS(書籍の中で登場する手法の1つ)を発展させるとこうなりますとか、論文の内容をそのまま独立した手法として受け取るのではなく、その手法を機械学習のフローの中の1つのオプションとして位置付ける、俯瞰の視点を持った方がいいと思います。

安井:その体系だった視点を持つためにはどうすれば良いんでしょうか?

齋藤:どうでしょう……。自分は自然とそのような考えで論文を読んでいたという感じですが、あんまり一般性のない話なのかもしれません。

安井:なるほど〜。その体系だった感覚みたいなものはどうやったら習得できるのかな、というところはみなさん興味ありそうですけどね。やっぱり論文の数読まないといけないのかな、とか。

齋藤:数というより、論文を読むときの姿勢や意識が重要な気はしますね。論文や教科書を読んだときに、それを単に正解として受け取るのではなくて、自分なりの言葉や解釈で位置付けるところまでやっているか、というのはあると思います。そうやって自分なりに手法や定式化を落とし込めている人は、自由に論文の内容を修正して応用していけるんじゃないでしょうか。

画像

安井翔太(やすいしょうた)

2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。入社後は広告代理店にて広告効果検証等を行い、その後2015年にアドテクスタジオへ異動。以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて、機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で、Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。著書に『効果検証入門』⁠技術評論社、2020)がある。

安井:ダメ元でお聞ききしますが、そういう人にはどうすればなれそうですか?

齋藤:単なる得意不得意な気もします。中途半端にわかった気にならない、というのも重要でしょうか。その辺、自分は頭の回転が速くないので、スピードや読んだ論文の数なんかは気にせず、むしろちゃんと自分なりの理解を得るまで読もう、という意識でこれまでやってきた点は良かったのかもしれません。

安井:なるほどなるほど。

齋藤:それと、論文を読むときは、それぞれの提案手法があるのでそれに着目してしまいがちなのですが、この本で伝えようとしたのは、⁠特にCFMLの分野の)論文から学ぶべきは、論文の著者が暗黙の内に共有している「機械学習に対する見方」なんだということです。それを研究畑ではない実践者の人たちにおもしろいと思ってもらえるような言葉で書いてみた、というのが今回の本の1つのコンセプトなのかなと思います。

安井:森下さんにも論文と実務がどう関連するか聞いてみたいのですが、いかがですか?

森下:僕は研修者ではないので、論文とはかなりユーザー寄りの付き合い方をしています。僕が論文を読むときは、実際に実務に使うときに上手くいくのかな、とか、どういうときに上手くいかないのかなとか、そういうのを調べます。たとえば、PD(Partial Dependence)だったら、どういうデータのときにまともな解釈ができて、どういうデータのときはうまく機能しないんだろうとか。そういうのをシミュレーションして試してみて納得する。

また実務というか、いま会社にある課題を解決するために使えるのかな、といったことはよく考えますね。ちょっと読んで、考えて、また考えてみたいな感じになってて、読むスピードは遅くなるのですが。僕自身、手法そのものも大事なんですが、大元の発想を学んでおいた上で、それを応用することが大事なのかなと思っています。たとえばSHAPは協力ゲーム理論を機械学習に応用しているんですが、じゃあ何か他のことに協力ゲーム理論を応用できるのかな、と考えたりします。

画像

森下光之助(もりしたみつのすけ)

東京大学大学院経済学研究科で計量経済学を用いた実証分析を学び、経済学修士号を取得。株式会社グリッドに入社し、機械学習を用いたデータ分析プロジェクトに従事。現在はTVISION INSIGHTS株式会社で執行役員兼データ・テクノロジー本部副本部長。テレビデータの分析、社内データの利活用の促進、データ部門のマネジメントを行っている。

Twitter:@dropout009
ブログ:Dropout
登壇資料:Mitsunosuke Morishita(@dropout009)on Speaker Deck

安井:実務への適用という点で言うと、齋藤さんはいかがですか?

齋藤:それでいうと、たとえば、因果推論の手法で、重み付けすれば簡単にバイアスが除去できます、みたいな話が徐々に広まってきていると思うのですが、では何で重み付けすれば良いのかは個別の状況やデータの取られ方などに依存して変わってくるんですよね。そのすべてのパターンについて、この場合はこう重み付けすればいいみたいな話は論文で書いてるわけではなく、そこは手法や分野の根底を理解しておかないと、自社の設定に適切に応用できないのかなと思います。

たとえばその会社でのデータの得られ方とか、こういうバイアスが重要ですよというのは、会社とかサービスごとにその数だけあると思います。その意味で、それぞれの手法を単体で覚えておくというのではなくて、一般化して根底にある考え方を理解しておかないと、いざというときに応用が効かないと思っています。それと、単に重み付けすればいいのね、と中途半端にわかった気になっていると、間違った使い方をしがちですよね。

3人:(笑⁠⁠。

齋藤:なので、自分たちの本の内容は、主に企業のデータサイエンティストが心得ておくべきことなのかなと思います。もしくは企業研究所で、研究成果を自社のビジネスに生かす立場にいる方や、中長期的な視点でサービス側にアドバイスしたり、社内コンサル的な立場で入ったりすることがある人たちも、ドンピシャのターゲットかもしれませんね。

機械学習実践の理想と現実

齋藤:安井さんにとって、今回の本はどんな仕上がりになりましたか?

安井:僕も会社ではプロダクトの抱える問題の全体像から捉えて、こういう問題があるからそれに対処しつつモデルを導入しましょうといったコンサルティングをプロダクトに対して提供しつつ、一方では新卒の方に研修を行って、それができるデータサイエンティストの育成を進めています。今回の本はその研修の内容を体系立てて説明できている感じがしていて、来年からこの本を渡せばそれで研修が終わってしまう気がしています(笑⁠⁠。

それと、僕自身は仕事の中で推薦は扱ってこなかったので、教えられる問題設定には限りがあって自分の中では課題だと思ってたんですけど、それも見事に解決されました。この内容を理解してくれるデータサイエンティストの人が増えると、事業的な成果に繋がりやすいデータサイエンスプロジェクトが増えて、良いサイクルが回るようになると思います。

齋藤:この本の内容を読んで身に付けたからと言って、うまくいかない可能性もあると思います。ただ、この本の考え方を身に付けておかないと失敗した原因もわからず、機械学習を使う意味がそもそもあまりないので、それが上手く伝わればいいですね。

安井:一方で思うのは、この本を読んで自分の環境が窮屈だなって思う人もいそうだなと思いました。なぜなら真の予測精度を改善することイコールビジネスの成果になってない環境がたくさんあるからです。そこにコストをかけても売上は上がらないけど、それをやらないといけないみたいな話とか、そういう窮屈さがあるというのはよく聞きます。

齋藤:機械学習に対するハードルを上げちゃう可能性はあるかもしれませんね。

安井:そうですね。僕も『効果検証入門』を書いてて、あとがきに話題になったセンテンスがあって、⁠そもそも正しい情報が価値になる状況を作らないと因果推論なんてやる意味ない」って書いたんですよね。それに近い状況を作る可能性があると思います。そのときはあとがきにそう書いたらまずそうかなって思ってましたが、でもどうしようもない部分でもありつつ……。

齋藤:内容に真面目に従ってやろうとすると根本から変えないといけないし、根本から整理しないといけないというのを投げかけているので、その意味ではかなりチャレンジングな内容になってるとは言えますね。

安井:そうですね、良くも悪くも。ひょっとしたら、ただお客さんやビジネスサイドが言ってきた問題設定に取り組むだけの受諾型のデータサイエンティストは、機械学習やる意味がなくなるかもしれないですね。

齋藤:ちゃんと機械学習をやろうとすると現状とはギャップがあるはずです。ただ、本の主張とすることをやらないと、やる意味がない問題を頑張って解くことになってしまいます。真面目に本の内容を学習してくれたらすごくうれしい一方で、それを実際に活用するとなると、ハードルが高い気もします。ただ正しい考え方を知っていないと、自分が何を妥協しているのかすら気づけないので、実用のハードルが高い部分があったとしてもまずは理想となる考え方を身につけて欲しいという気持ちがありますね。

安井:僕としてはそういった悩ましいことに対していろいろ考えること自体も、データサイエンスという未熟な分野の楽しみだと思うので、⁠施策デザイン』はぜひ研修で使ってあれこれ考えられるデータサイエンティストを増やしていきたいと思います!

研究とビジネスのコミュニケート

安井:続けて森下さんの『機械学習を支える技術』の感想も述べると、最初の方にもお話しましたが因果関係について考慮しているのがおもしろいと思いました。特に解釈性の限界について明確に述べていて、その中でどう使えるかを説明しているのが非常に勉強になりました。因果推論を学ぶと「因果関係を示唆するもの以外使えないじゃん」っていう感覚に陥りがちなのですが、そういった制約がある中でもいろいろと考えられることがあるという話は非常に価値がある部分なのではないかと思います。

あと計量経済学や因果推論側の人として読むと、インスタンスごとの解釈性にも興味をひきました。ビジネス応用の可能性を感じますね。予測をして、その予測結果をもとに人間が意思決定する機会はたくさんあるじゃないですか。そういった設定で予測値以外にもその予測の根拠になる情報が意思決定者に表示され、意思決定者は両方を加味した上で意思決定を下す。こういった使い方を前提にすれば、人と機械学習のハイブリッドを前提にしたビジネス応用の可能性が広がりそうでおもしろそうだなと思いました。

あとは『施策デザイン』の5章、レコメンドの文脈でIndividual Treatment Effectを予測するような機械学習の内容だったのですが、そこに解釈性を使ったらおもしろそうだなと思いました。因果効果が高い人はこういう解釈ができるかもねっていうのが提示できると、そこから仮説構築ができるようになるのかな、とか。

森下:ありがとうございます。それはおもしろいですね。解釈性の文脈ってやっぱり、因果推論と比較すると厳密なことは言ってないと思います。ただ、ビジネスに利用することを考えたときに、100%正しいものがほしいかというとそうではないと思っていて…。無いよりは意思決定の役に立ちますとか、そういう判断の材料はあった方がいいと思うんですよね。100%正しいことだけをやるのではなくて、正しい確率が高い方、絶対合ってるわけではないけれど、80%だったらやったほうが得になりそうとか、そういう場面が多いのではないかと思います。

安井:なるほど。ありがとうございます。

森下:先ほどの研究と実務の話で言うと、サイバーエージェントさんは連携がすごくうまくいっているように見えるのですが、それはなぜでしょうか?

安井:これは齋藤さんがさっきお話しされてた、研究と実務のコミュニケータみたいな存在の話と近いと思います。研究成果というか、アカデミックで新しいことを実務で使おうと思ったら、その合理性を伝えなくてはいけません。それをちゃんとアカデミアの目線で理解した上で、プロダクトに対してプロダクトの言葉で伝えられる人が、全員じゃないですけど、社内にいるっていうのが大きな理由なのかなと思います。

齋藤:そうですね。効果が出るだろうと思われている新しい手法を使うという文脈よりも、それを使うことによるトレードオフの判断ができるかとか、もしくはトレードオフが存在すること自体をしっかりと把握できる人が必要かなと思います。それは、研究で議論されていることをある程度把握している人でないと難しいと思います。さっき、森下さんのたとえで、完璧ではなく80%を目指すのがビジネス的に大事だ、という話があったと思うのですが、ではどの仮定、どのバイアスを無視してしまうと80%すら達成できない大失敗になってしまうのか。そういったトレードオフの具合をちゃんと判断できる人がいないと、そもそも80%に着陸させることはできないと思っています。

森下:おっしゃる通りだと思います。そういう勘所みたいなものは難しいですね。

さいごに ―学生から実務、応用分野の人まで幅広く届けたい

安井:ではそろそろまとめということで。最後に誰に読んで欲しいか、齋藤さんから聞かせてください。

齋藤:あまりかっちりした定義ではないんですが。メインは企業でデータ分析を扱っていて、いわゆるデータサイエンティストとして働いている人、もしくは学生でデータサイエンティストを目指している人に読んで欲しいなと思っています。機械学習エンジニア、もうちょっとエンジニア寄りだけど機械学習を扱ってる人も、本に登場するトレードオフとかの話を知っておいて損はないかなとは思っていますね。なので、企業データサイエンティストと機械学習エンジニア全員って感じはしています。

安井:ありがとうございます。森下さんはどうでしょうか。

森下:僕もほとんど一緒だと思います。実務でデータ分析をやってるような人、いわゆるデータサイエンティストの方に一番読んで欲しいと思っています。あとは、分析をしてるというよりは、予測モデルを道具として使っているようなエンジニアの方にも読んでいただける本だと思っています。

齋藤:それと応用寄りの研究者の方にもおもしろいと思ってもらえるかもしれません。その人たちに向けて書いたわけでなはいので自信はないですけど、感想は聞いてみたいです。ただ理論の研究者が読むと気持ち悪いと思います(笑⁠⁠。誰にも嫌われない本を書くと、誰にも好かれない本になっちゃうなと思って。理論に詳しい人に何か言われるかもしれないなと思いつつ、思い切って削っている内容とかもあるので。ただ応用系の学会に出ている研究者とか、推薦システムのバイアスの話に触れたことのない研究者の人とかであればおもしろく読んでもらえるかもしれません。

安井:ちなみに僕は、お2人の本は学生の方が読むとすごく良さそうだなと思っています。どちらもビジネス応用としてすごく重要なトピックなのだけれども、現状企業のデータサイエンティストからは忘れられがちになっています。基本的に新しく入社してくる時点でそれを持っていると、その上のレイヤーの人たちをどんどん脅かせるようになっていきます。ぜひ読んで、競争力を身に付けた状態で入社して欲しいなと思っています。

齋藤:たくさんの人に読んでほしいので、データサイエンティストの研修などにおける教科書みたいな扱いになると良いなと思っているのですが…。読者が能動的に読む状況を作るためにはどうすればいいでしょうか? 少なくとも自分の書いた本は、実務経験をある程度積んでいる人にこそ、共感してもらえる内容になっているはずです。理想的には学生の人にも読んで欲しいのですが、おもしろく読んでもらえるかわからないというのが個人的にはあるんですよね。

安井:僕は結構いけるんじゃないかなと思います。むしろいろいろな企業のデータサイエンスの現場でこの知識が共有されると、日本のデータサイエンスのレベルがグッと上がってくると勝手に思っています。

森下:『施策デザイン』は安井さんの『効果検証入門』よりも実務に焦点を当てている感じですか? というのは『効果検証入門』は普通に学生も読んでいるイメージがあるので…。

齋藤:であれば、期待して良いのかな。それこそ感想とか誰かブログを書いてもらって、ポジティブな点でもネガティブな点でもなんでも知りたいですね。いろんな立場の人、それこそ応用系の研究者とか、メインターゲットであるデータサイエンティストの方、もしくは学生の人とか、それぞれ感想を聞いてみたいです。おもしろいだろうと思って書いた文章がそのとおりに受け取られるのか、あるいはその逆も。そのすり合わせをしてみたいですね。

安井:ぜひ多くの方に読んでいただきたいです。特に就職前に読んでおくと、キャリアの選択上ですごく重要な学習になりそうだなと思いますね、この2冊は。

おすすめ記事

記事・ニュース一覧