現在、
解析データ量と広告配信コストの意外な関係
- ――まず現在の業務内容を教えてください。
吉田:アドテクスタジオで開発しているサービスの1つである、
AMoAdネットワークの配信ロジックの設計とBI (Business Intelligence) の運用・ 保守などを担当しています。そのほか、 いくつかのサービスの配信ロジックの設計にも携わっています。 - ――インターネット広告において、
配信ロジックはどのような役割を担っているのでしょうか。 吉田:インターネット上の広告は、
無数のメディアと無数の広告を効率よく結び付ける必要があります。ランダムに配信すると効果が生まれないので、 効果が高まるように結び付きを考えて配信しなければなりません。その仕組みを作るということが根本にあります。 インターネット広告の価値は、
一般的なマスメディア広告と異なり、 広告効果を的確に測定できることです。たとえば男性に対して女性化粧品の広告を露出した場合、 広告効果はどうでしょうか? 高いものとはいえないですよね。こういったことがないように、 広告配信のロジックを考えなければならないのです。 その一方で、
広告効果を高めるために多くのデータを使うと、 それだけ広告単価は上昇します。たとえば男性や女性、 若年層や老年層といったところを把握し、 適切に広告を出し分けるといったこともインターネット広告では行われています。このようにデータを使うとその分のコストが発生し、 広告単価の上昇という形で広告主の負担になってしまいます。 そのため、
広告効果を高めつつ配信コストを抑えるというトレードオフを、 予算などの制約条件の中で設計する必要があります。このトレードオフを解消するために、 新たなデータを使ったり、 あるいは解析ロジックに手を入れて改善を重ねています。 - ――その解析ロジックでは、
具体的にどのような手法が使われているのでしょうか。 吉田:本当にさまざまで、
ECサイトなどのレコメンドエンジンに使われている協調フィルターを改変したものや機械学習、 情報理論や制御理論、 時系列解析などです。これらの技術を使い分ける理由は、 目的と解析する対象のデータが変わるためです。 たとえば何らかの施策を実施し、
それによってどの程度のコンバージョンレートが得られるかを推定する、 といった場面があるとします。基本はデータの種類によって、 どんな理論が通用するかが決まります。その次に100%正確に推定するのはまず無理なので、 推定精度という指標を手がかりにモデルを作り上げ、 検証を繰り返します。そして、 最も精度が高いモデルを作りあげていきます。
データ解析の専門家が欲しがる“生のデータ”とは
- ――解析手法以外で、
推定精度を高めるポイントとしてはどういったものがありますか。 吉田:ノイズの混じっていない、
精度の高いデータを解析に使うことです。次にノイズデータを正確に除去していくことです。適当な回答などが含まれるアンケートなどをデータとして使った場合、 当然ながら予測精度を高めることはできません。逆にクリックしたバナーの種類や時間, どこでクリックしたかなどの正確な行動データを使うことができれば、 予測の精度は高まります。 結局のところ、
コンバージョンやコンバージョンに至る過程というのは人が行う行動です。人々がどのように行動するのかが分かれば未来予測がしやすいということになります。ただ人の行動は単純ではありません。あるWebサイトでバナーをクリックしたけれど、 結果的に脱落して最終的にはコンバージョンに至らなかった、 その後別のWebサイトで同じバナーを見て、 今度はコンバージョンに至ったなど、 さまざまなパターンがあり得ます。こうした行動をしっかり把握することで予測の精度を高めることができますし、 それを広告設計に活かせばコンバージョンレートも高められます。 コンバージョンレートが向上すれば、
広告主には広告効果や売上の向上という形で貢献還元できますし、 メディアに対しても広告枠に対して高単価での買付けが可能になります。当然、 我々のメリットも大きくなるということで、 予測の精度を高めることはビジネス上極めて重要であり、 データ解析に対する期待は大きいと実感しています。
データサイエンティストに求められる3つのスキル
- ――ビッグデータが注目されていることもあり、
データサイエンティストと呼ばれる職種のニーズが高まっています。このデータサイエンティストとして活躍するには、 何が必要でしょうか。 吉田:対象となるサービスについて理解して興味を持つこと、
データベースエンジニア的な知識があること、 データ解析の理論を知っていることの3つではないでしょうか。 データを分析する人間は、
サービスをどう展開していくべきだ、 などといった提案をしなければならないケースがあります。そのとき、 サービスのことは知りません、 興味がありませんということだと、 仕事の幅がすごく狭くなるわけです。そうならないためには、 やはり自身が関わるサービスについてしっかり理解し、 興味を持って取り組むことが必要です。 データベースエンジニア的な知識も求められます。ベストなのはデータ解析に特化した人材と、
システムの専門家が分業して取り組むことですが、 現実的には難しいケースもあります。そのため、 データサイエンティストは解析対象のデータがどうなっているのか、 実際に解析をして分かるリソースの消費量や提案した最適化に対するリソースの消費量を織り込んで設計する必要があります。 それに加え、
データ規模が大きくなれば一般的なRDBMSの領域を超えてくることになります。それに対して、 今であればHadoopやSpark、 あるいはIBM PureData System for Analytics (旧Netezza) などといったソリューションのどれが自分たちにとって最適であるのか、 ある程度理解しておくべきでしょう。もちろん、 深いところまで理解するのは難しいですが、 広く浅くでもいいので全体の仕組み (理論) を理解しておきたいところです。
ビジネス側からの要求を明確化して数式に落とし込む
- ――実際にデータサイエンティストとして入社した人材を育成する際、
重点的にトレーニングするのはどういった部分でしょうか。 吉田:教えるのに一番苦労するのは目的関数のところですね。たとえばサイトに訪れるユニークユーザー数を増やしたいなど広告効果を高めたい時、
それを目的関数として数式に落とし込みます。この数式にはさまざまな要素があり、 その要素のどれを変化させると結果を最大化できるのかなどと考えていくわけです。 たとえばビジネス側からの要求が曖昧模糊な場合、
それを受け取ったときにきちんと咀嚼して目的関数を作らなくてはなりません。この際、 ビジネス側の要求を正しく理解しないまま目的関数を作ってしまうと、 最終的に意味のない取り組みになってしまいます。このため要求を理解して咀嚼し、 結局何をする必要があるのかを考え、 それに対して何が必要かをブレークダウンしていくという流れを正確に進めることが大切です。こうした作業にはビジネス的な観点も求められるため、 時間をかけて教えています。
- ――IT業界においてビッグデータが大きなトレンドになっていますが、
データ解析のプロフェッショナルとして、 このような動きをどのように捉えられているのでしょうか。 吉田:データがビッグかどうかは問題ではないと考えていますが、
ビジネスの中で活用すべきデータは無数にあり、 それらが結果的にはビッグデータなんですね。ただそれをうまく活用することを考えたとき、 一般的な統計理論の枠組みから少し外れている部分がまだあります。いわゆるビッグデータ用の検定技法も今作られている段階です。より多くのデータを無駄なく、 正確に且つ速く処理する仕組み (理論) を作り出すこともビジネスを安定稼働させるために必要だと考えています。 - ――データ分析の専門家として、
今後チャレンジしたいことはありますか。 吉田:個人的には、
広告配信の仕組みを情報理論ですべて統一的に理解するといったことをやりたいと考えています。これはもう夢ですし、 それで売上がアップするのかと言われればそうではありませんが、 個人としてはチャレンジしてみたいですね。 それとは別に、
アドテクスタジオのメンバーという立場では広告効果と料金設定のセットオプションを幅広く提示し、 ユーザーにとって使いやすい広告配信システムを作り上げたいと考えています。そのための正確な推定や最適化に取り組んでいます。それといわゆるブランディング広告のようなものの開発はもっと進めていきたいと思っています。ただ、 このような広告は定量的な効果測定が難しいという課題があり、 それをどう解決するのかを考えなければなりません。これはインターネット広告全体の課題でもありますが、 アドテクスタジオとしても取り組んでいきます。