こんにちは、Amazon Web Services Japanのソリューションアーキテクト大薗です。
本連載の第5回ではデータ分析基盤を構成する実装アーキテクチャの1つであるラムダアーキテクチャを例に、データ分析ユースケースとそれらに利用可能なサービス、サービスの使い分けについて取り上げました。第6回は実際にたまったデータを活用するためのポイントについて解説していきます。
はじめに
近年、迅速かつ的確に意思決定を行い経営に役立てるために、あらゆる業界のさまざまなレイヤーにおいて、データをビジネスに活用しようという機運が高まっています。これまで拠り所とされてきた、いわゆるKKD
第5回までの記事では、どのようにして大量かつ多様なデータを収集・
データ活用のワークロード
まず、データの活用パターンについて整理します。データ活用には大きく次の2つのことが挙げられます。
- ① 人がデータを分析してアクションにつなげるもの
- ② システム側でデータの集計・
分析結果を連携してアクションにつなげるもの
① 人がデータを分析してアクションにつなげる
①は人がデータを探索し、可視化し、分析することで、データから何らかのインサイトを得てアクションにつなげることが目的です。その中身を大別すると
インタラクティブ分析とは、多くのデータから何を読み取れるのかを試行錯誤して見出したり、必要になったタイミングで都度データを分析するものを指します。定型分析とは、ある程度決まった型に合わせてデータを可視化したり、レポーティングの形でデータを出力して、KPI
② システム側でデータの集計・分析結果を連携してアクションにつなげる
②は、人を介さず他システムにデータを受け渡して後続のアクションにつなげていくことが目的です。日々たまっていくビジネスデータやログデータを加工・
こういった仕組みを実現するためのソリューションとしては、たとえばAmazon S3データレイクやAmazon Redshiftデータウェアハウスに格納されたテーブルデータに対して:
- サーバーレスETLサービスであるAWS Glueを使って加工・
集計した結果 - 機械学習サービスであるAmazon SageMakerを使って構築した機械学習モデルを介して推論処理を実行した結果
を、S3にエクスポートして他のシステムに連携していくイメージになります。
①②どちらも重要なデータ活用の一部であり、ビジネス判断のスピードと正確性をあげるためには欠かせないピースといえます。本稿では、これらのデータ活用のワークロードのうち、①人がデータを分析してアクションにつなげるものにフォーカスして掘り下げていきます。
どのようなソリューションが必要か
先に述べたように、人が行うデータ活用にはインタラクティブ分析と定型分析があります。それぞれの分析はその特徴や実施するユーザーの層が異なることが多いため、それぞれの要件にあったソリューションを選択する必要があります。
インタラクティブ分析
インタラクティブ分析では、ユーザーがさまざまな条件でデータレイクやデータウェアハウスからデータを取り出して結果を確認し、インサイトが得られるまで試行錯誤を繰り返していく必要があります。
こういった分析を行うためには、大容量のデータから素早く集計結果を確認できる対話型のツールが求められます。また、データの羅列を眺めるだけでなく、グラフやパイチャート、散布図などビジュアルで確認したほうが素早くインサイトが得られることがあるため、簡単な可視化もできるとなおよいでしょう。
また多くの場合、この業務はSQL
定型分析
定型分析では、定期的なレポーティングのために、ある程度固定的なデータの組み合わせと集計方法で自動的にデータをダッシュボードとして可視化できるソリューションが求められます。また、ある断面を静的に可視化するだけでなく、フィルタを使って条件を絞ったり、データの集計レベルを掘り下げて分析するためのドリルダウンと呼ばれるような機能を用いて、動的にビジュアルを変更しながら、詳細を深掘りして分析できることも重要になります。
インタラクティブ分析よりも幅広い層のユーザーが利用することが多くなるため、適切な権限管理が行えるもの、特別なスキルがなくても使いやすいものであることもポイントになってくるでしょう。代表的なソリューションとしては、大容量データを可視化して分析していくためのツールである、ビジネスインテリジェンス
なお、先述のインタラクティブ分析においても、SQLを記述するよりもGUIでの操作が好まれる環境の場合には、BIツールを利用してアドホックにデータを解析していくケースもあります。
ソリューションの選択肢
ここまでの話を踏まえ、インタラクティブ分析や定型分析を行うためのソリューションの選択肢について紹介します。
インタラクティブ分析のためのソリューション
インタラクティブ分析のソリューションとして、Amazon AthenaとAmazon Redshiftについて取り上げます。
Amazon Athena クエリエディター
インタラクティブ分析を行うためのデータソースが主にAmazon S3データレイクに集められている場合の選択肢として有力なのが、Amazon Athenaです。
Amazon Athenaはインタラクティブ分析用途に提供されているサーバーレスのクエリエンジンであり、マネージメントコンソール上に、分析SQLクエリをインタラクティブに実行して結果を表示するためのクエリエディターを備えています。非常にシンプルで分かりやすいユーザーインターフェース
また、Amazon AthenaはAmazon S3以外の多くのデータソース
Amazon Athenaの詳しい特徴は、第5回の
Amazon Redshift クエリエディター V2
分析対象のデータがAmazon Redshiftに格納されている場合は、Amazon Redshiftが提供するクエリエディターを使用するのがよいでしょう。
Amazon Redshiftは高速でスケーラブルなデータウェアハウス
クエリーエディター V2では、分析SQLクエリを投入して結果を表形式で表示するのに加え、簡単なグラフ表現で可視化をすることができるので、直感的にデータの傾向を掴むことができます。また、SQLエディターのほかノートブックインターフェースも備えており、分析クエリやコメントを使いやすいようにまとめて効率的なデータ分析を行えるようになっています。
Amazon Redshiftの詳しい特徴は、第5回の
定型分析のためのソリューション
提携分析のソリューションとして、Amazon QuickSightとその他のクラウド型BIツールについて取り上げます。
Amazon QuickSight
定型分析としてのデータの可視化と深堀分析を効率的に行うための有力な選択肢が、Amazon QuickSightです。
Amazon QuickSightは、AWSが提供するクラウド型のBIサービスで、AWS上のデータだけでなく、その他クラウド上、オンプレミス上にあるさまざまなデータソースのデータをモダンでスタイリッシュなUIでダッシュボードとして可視化してすばやくインサイトを提供し、定型分析の効率を向上させます。棒グラフ、折れ線グラフや散布図、ピボットテーブルや地図表現など多彩なビジュアルが用意されており、さまざまな定型分析のニーズに対応可能です。
また、Amazon AthenaやAmazon RedshiftといったAWSの分析サービスを活用している場合には、接続の親和性やセキュアに簡単にインテグレーションしやすいという意味でも、Amazon QuickSightを選択するメリットが大きいでしょう。
さらに、Amazon QuickSightはフルマネージド型のクラウドベースのサービスとして、エンタープライズグレードのセキュリティ、グローバルな可用性、組み込みの冗長性、Eメール配信や印刷しやすいページ分割形式でレポートを出力する機能
Amazon QuickSightの使い勝手を手軽に体験するためのリソースとして、様々な種類のセルフハンズオンキットや、業界ごとのダッシュボードサンプルを参照できるAmazon QuickSight Gallary、自由にアクセスできるデモ環境としてのAmazon QuickSight Demo Centralなど多くのリソースが提供されています。ぜひチェックしてみてください。
その他クラウド型BIツール(SaaS)
近年ではクラウド/SaaS型のBIツールが増えており、それらが選択肢になることもあるでしょう。
たとえばTableau Cloudは、BIベンダーのTableau社が提供するクラウドで利用できるビジュアル分析環境です。同じくBIベンダーのDomo社が提供するSaaSであるDomoもデータドリブン経営に必要な機能を持つクラウドベースのBIツールの一つです。また、Microsoft社が提供するSaaS型のBIツールであるPower BIサービスも、クラウド上で簡単にレポートを作成してダッシュボードとして公開することができるサービスです。この他にも多くのクラウド/SaaS型のBIツールが増えてきているのが現状です。
BIツールを選択する際のポイントとして、使い勝手や機能、コストなどさまざまな観点がありますが、分析対象のデータに接続できるか、つまり使っている分析サービスをサポートしているかという点も重要です。
ここで紹介したクラウド/SaaS型のBIツールについては、第5回で取り上げたAmazon AthenaやAmazon RedshiftといったAWSの分析サービスとの接続もサポートしているので安心です。
データレイクやデータウェアハウスとBIツールは、ニーズに応じて好みのものを組み合わせて使えることも大きなポイントとなります。
まとめ
本稿では、データの活用をするにあたってのワークロードの整理とそれぞれに必要な要件、ソリューション選択の考え方について解説してきました。
本連載は第6回で終了となります。最後までお読みいただき、ありがとうございました。