データサイエンスに注力できる環境を整えるのが重要に
エンジニアがデータサイエンスを始めるにあたって、どんなスキルが必要となり、どこから取り組めば良いのでしょうか? 日本アイ・ビー・エム、アナリティクス事業部の田中裕一氏は「コードを書くところから入るのがわかりやすい」と言います。
講演ではIBM Bluemixに用意されているJupyter notebookを使って、SparkのMLlibでNaive Baseを実装した判定器を作るデモを行いました。サンプルデータを作って特徴抽出を行い、トレーニングして予測モデルを構築。そこにデータを流し込んで予測して結果を表示させれば、判定器の正解、不正解がわかるというものです。
田中氏はJupyter notebookの使い勝手の良さを強調しながら「どれだけデータサイエンスに注力できる環境を整えるのかが成功の鍵になります」とデータ分析基盤の重要性を語りました。
記録されたユーザの移動手段、経路、歩数といった行動情報を人工知能を使ってリアルタイムに分析し、行動を誘発するソリューション「SilentLog Analytics」を提供するレイ・フロンティアの澤田典宏氏は、「行動誘発には人それぞれの時間と場所と属性の理解が重要です」と語ります。
同社では、行動を分析し行動を元に配信情報を個人向けに最適化することで、行動を誘発する取り組みなどを行っているとのこと。ドライバーの行動を分析して、適宜安全を促すような警告を配信する試みや、高齢者に歩数を知らせることで健康を誘発する実験なども手掛けています。
「有事の場合に、車や徒歩の状況を分析することで、どんな補助が必要なのか仮説を立てることができます」と澤田氏。同社は行動分析に機械学習やオンライン学習を実施し、ビジネスでの活用を拡大していくことを目指しています。
データ活用を支援するDATUM STUDIOのデータエンジニアであり、女性のPythonistaのための国際団体の日本支部の設立者兼代表である真嘉比 愛氏は、Pythonを利用してデータ分析を始めたいという人たちを対象に、Pythonで利用できる分析ツールを紹介しました。
「Pythonは構文がシンプルでわかりやすく、無料で使えるライブラリが豊富」という真嘉比氏は、データ分析環境Anacondaを「400以上のライブラリを内包していてお勧めです」と紹介しました。Cloud環境として無料で使えるIBM DataScientist Workbenchと、そこで提供されるJupyter notebookを取り上げて、その上で動作させる分析のためツールとしてpandas、描画ツールとしてmatplotlib、機械学習のためのツールとしてはscikit-learnを推奨していました。
IBMのPaaS、Bluemixのコミュニティを担当する日本アイ・ビー・エムの宋珠憲氏は「BluemixはCloudFoundaryを基盤にしたオープンソースの塊」と紹介しました。SparkやNodeRED、Swiftも提供され、柔軟性の高い開発環境だと言えます。Sparkを使えば「5分で開発環境を構築して、外部からデータを持ってきて分析が可能」(宋氏)とのこと。
宋氏の講演に続いて、日本アイ・ビー・エムの土屋敦氏が登壇。Data Scientist Workbenchのロードマップと新機能を発表するとともに、Sansanが主催するデータ分析コンペ「人口知能は名刺をどこまで解読できるか」の案内を行いました。コンペの主催者であるSansan取締役の常樂諭氏も登場しました。
データサイエンス成功の秘訣は密なコミュニケーションにあり
2日間の最後となるゼネラルセッションでは「データサイエンスの未来―活用して競争力を発揮するために」というテーマでディスカッションが行われました。登壇者はモデレーターを入れて5名。それぞれが異なる立場からの見識を披露しました。
最初のテーマはデータサイエンスが必要かどうか。映画の口コミメディアを手掛け、データを活用して映画業界に貢献したいと考える鈴木氏は「実体験としてビジネスにデータサイエンスは必要だと感じています」と話します。
また、事業会社内のデータサイエンティストである原田氏は「どこで成果を出すのかを明示的に見立てること。ひらめきだけで分析業務の稼働を精査せず進めるとビジネスから離れていく」と指摘。データエンジニアとして活躍する真嘉比氏は「何を達成したいのか具体的なKPIを探し出すこと。データありきで成功したケースはほとんどない」と語りました。ポイントは“密なコミュニケーション”だと言えます。
心理学の立場からデータサイエンスに関わる澤井氏は「漠然としたログからどの人が興味を持つのか推定するのは難しい。一定のサンプリングをして、興味のある人がどんなログを持っているのかを分析すれば見えてくるかも」と工学的なアプローチとは違う切り口を示しました。
このほかにも幅広い話題でディスカッションが展開され、今後の参考となるキーワードが数多く上がっていました。