データサイエンスを利用してビジネスの成果をあげるためには、ある程度の高尚なアルゴリズムやデータサイエンスの問題を解くための知識が必要です。そのデータサイエンスの問題自体を解くために、基本的なデータの前処理や機械学習モデルの構築・運用に関するOSS(Open Source Software)のライブラリも数多く実装されています。つまり、“データサイエンスの中だけで完結する問題”を解くための道具は、一通り揃っていると言えます。
一方、以下に挙げるような知識は提供されているでしょうか。
- 実際のビジネスの問題をどうデータサイエンスの問題として捉えるか?
- 機械学習モデルの評価を、AUCや正解率(Accuracy)などのデータサイエンスにおいて、標準的に使用される評価指標で評価するのではなく、実際のビジネスのKPIに沿って評価するにはどうするべきか?
これらのノウハウをまとめた書籍・論文については多くはありません。私たち個人が個性を持つように、法の下に作られた“人”にして権利や義務を持つ組織である法人それぞれにも個性があります。その法人が生み出すビジネスは、収益・コスト構造を規定するビジネスモデルにおいて千差万別であり、安易にすべてのビジネスを包括するような一般論を構築することが難しく、体系だった解説はしにくいと言えます。
一方で、ビジネスにおいて著しい成果を出し続けているプロフェッショナルのデータサイエンティストは、“ビジネスとデータサイエンスをつなぐ原理”を理解しているからこそ、高いパフォーマンスを発揮できるのでしょう。もしこの原理が普遍性を持ち、再現性の高いものであると仮定できるとき、その原理さえ一度理解してしまえば、たとえ異なるビジネスを行っていようとも、すべてのデータサイエンティストが高いパフォーマンスを発揮できるはずです。
本書はこのビジネスとデータサイエンスをつなぐ原理を、評価指標という切り口から、評価指標で捉えられる枠組みの中だけでも体系化しようという野心的な試みから生まれた本です。本書を通じ、ビジネスとデータサイエンスの間に脈々と流れ続ける原理・原則の普遍性を存分に感じていただければ幸いです。
(本稿は本書のはじめにを再編集したものです。)