これだけは知っておきたい、AWSでデータ分析を実現する方法

データの活用 ~活用パターンにもとづく⁠AWSソリューションの選択肢

こんにちは、Amazon Web Services Japanのソリューションアーキテクト大薗です。

本連載の第5回ではデータ分析基盤を構成する実装アーキテクチャの1つであるラムダアーキテクチャを例に、データ分析ユースケースとそれらに利用可能なサービス、サービスの使い分けについて取り上げました。第6回は実際にたまったデータを活用するためのポイントについて解説していきます。

はじめに

近年、迅速かつ的確に意思決定を行い経営に役立てるために、あらゆる業界のさまざまなレイヤーにおいて、データをビジネスに活用しようという機運が高まっています。これまで拠り所とされてきた、いわゆるKKD(勘・経験・度胸)といった定性的なものではなく、企業のビジネス活動や顧客のアクションを定量的に表すファクト(実際に起きたこと)に基づいた経営判断をしていこうというものです。

第5回までの記事では、どのようにして大量かつ多様なデータを収集・蓄積して管理していくべきかといった、データ基盤構築や運用のベストプラクティスについて解説してきました。しかし、データはためるだけでは片手落ちで、いかにそこから質の高いインサイトを得て次のアクションが取れる仕組みを作れるかがキーとなります。本稿では、これらのデータを適切に分析して活用していくためのツールやソリューション選択のポイントにフォーカスして解説していきます。

データ活用のワークロード

まず、データの活用パターンについて整理します。データ活用には大きく次の2つのことが挙げられます。

  1. 人がデータを分析してアクションにつなげるもの
  2. システム側でデータの集計・分析結果を連携してアクションにつなげるもの

① 人がデータを分析してアクションにつなげる

①は人がデータを探索し、可視化し、分析することで、データから何らかのインサイトを得てアクションにつなげることが目的です。その中身を大別すると「インタラクティブ分析」「定型分析」の2種類があります。

インタラクティブ分析とは、多くのデータから何を読み取れるのかを試行錯誤して見出したり、必要になったタイミングで都度データを分析するものを指します。定型分析とは、ある程度決まった型に合わせてデータを可視化したり、レポーティングの形でデータを出力して、KPI(Key Performance Indicator)のモニタリングと評価を実施するものを指します。

図1 インタラクティブ分析と定型分析
図1

② システム側でデータの集計・分析結果を連携してアクションにつなげる

②は、人を介さず他システムにデータを受け渡して後続のアクションにつなげていくことが目的です。日々たまっていくビジネスデータやログデータを加工・集計した結果を別のシステムに連携する仕組みや、データをもとにしたAI(Artificial Intelligence)やML(Machine Learning)による予測分析の結果をアプリケーションに自動フィードバックする仕組みのことを指します。

こういった仕組みを実現するためのソリューションとしては、たとえばAmazon S3データレイクやAmazon Redshiftデータウェアハウスに格納されたテーブルデータに対して:

  • サーバーレスETLサービスであるAWS Glueを使って加工・集計した結果
  • 機械学習サービスであるAmazon SageMakerを使って構築した機械学習モデルを介して推論処理を実行した結果

を、S3にエクスポートして他のシステムに連携していくイメージになります。

図2 インタラクティブ分析と定型分析
図2

①②どちらも重要なデータ活用の一部であり、ビジネス判断のスピードと正確性をあげるためには欠かせないピースといえます。本稿では、これらのデータ活用のワークロードのうち、①人がデータを分析してアクションにつなげるものにフォーカスして掘り下げていきます。

どのようなソリューションが必要か

先に述べたように、人が行うデータ活用にはインタラクティブ分析と定型分析があります。それぞれの分析はその特徴や実施するユーザーの層が異なることが多いため、それぞれの要件にあったソリューションを選択する必要があります。

インタラクティブ分析

インタラクティブ分析では、ユーザーがさまざまな条件でデータレイクやデータウェアハウスからデータを取り出して結果を確認し、インサイトが得られるまで試行錯誤を繰り返していく必要があります。

こういった分析を行うためには、大容量のデータから素早く集計結果を確認できる対話型のツールが求められます。また、データの羅列を眺めるだけでなく、グラフやパイチャート、散布図などビジュアルで確認したほうが素早くインサイトが得られることがあるため、簡単な可視化もできるとなおよいでしょう。

また多くの場合、この業務はSQL(Structured Query Language)のスキルを持ったデータ分析部門のエンジニアやアナリストが担うことが多いと思います。そのため、自由にSQLを記述して実行できるインターフェースを持ったものが求められるでしょう。代表的なソリューションとしては、各種データ分析エンジンに付随するSQLクライアントツールやデータ分析用のライブラリ豊富なPythonが扱えるノートブックタイプの対話型ツールが挙げられます。

定型分析

定型分析では、定期的なレポーティングのために、ある程度固定的なデータの組み合わせと集計方法で自動的にデータをダッシュボードとして可視化できるソリューションが求められます。また、ある断面を静的に可視化するだけでなく、フィルタを使って条件を絞ったり、データの集計レベルを掘り下げて分析するためのドリルダウンと呼ばれるような機能を用いて、動的にビジュアルを変更しながら、詳細を深掘りして分析できることも重要になります。

インタラクティブ分析よりも幅広い層のユーザーが利用することが多くなるため、適切な権限管理が行えるもの、特別なスキルがなくても使いやすいものであることもポイントになってくるでしょう。代表的なソリューションとしては、大容量データを可視化して分析していくためのツールである、ビジネスインテリジェンス(BI)ツールが挙げられます。

なお、先述のインタラクティブ分析においても、SQLを記述するよりもGUIでの操作が好まれる環境の場合には、BIツールを利用してアドホックにデータを解析していくケースもあります。

ソリューションの選択肢

ここまでの話を踏まえ、インタラクティブ分析や定型分析を行うためのソリューションの選択肢について紹介します。

インタラクティブ分析のためのソリューション

インタラクティブ分析のソリューションとして、Amazon AthenaとAmazon Redshiftについて取り上げます。

Amazon Athena クエリエディター

インタラクティブ分析を行うためのデータソースが主にAmazon S3データレイクに集められている場合の選択肢として有力なのが、Amazon Athenaです。

Amazon Athenaはインタラクティブ分析用途に提供されているサーバーレスのクエリエンジンであり、マネージメントコンソール上に、分析SQLクエリをインタラクティブに実行して結果を表示するためのクエリエディターを備えています。非常にシンプルで分かりやすいユーザーインターフェース(UI)となっており、直感的に使いやすいものになっています。

また、Amazon AthenaはAmazon S3以外の多くのデータソース(Amazon RDS、Amazon Redshift、その他多数)に対してもカスタムコネクターを介して接続することができるため、データがさまざまな環境に散在している場合にもシングルインターフェースでインタラクティブ分析を行っていくことができます。

Amazon Athenaの詳しい特徴は、第5回の「インタラクティブ分析」を参照してください。

図3 Amazon Athena クエリエディター
図3

Amazon Redshift クエリエディター V2

分析対象のデータがAmazon Redshiftに格納されている場合は、Amazon Redshiftが提供するクエリエディターを使用するのがよいでしょう。

Amazon Redshiftは高速でスケーラブルなデータウェアハウス(DWH)サービスで、クラスターを構成して管理するProvisioned型と、クラスター管理不要なServerless型が選択できます。Provisioned型、Serverless型それぞれでマネジメントコンソール上から活用できるクエリエディター V2が提供されています(Provisioned型では、旧バージョンであるクエリエディター V1も利用できます⁠⁠。

クエリーエディター V2では、分析SQLクエリを投入して結果を表形式で表示するのに加え、簡単なグラフ表現で可視化をすることができるので、直感的にデータの傾向を掴むことができます。また、SQLエディターのほかノートブックインターフェースも備えており、分析クエリやコメントを使いやすいようにまとめて効率的なデータ分析を行えるようになっています。

Amazon Redshiftの詳しい特徴は、第5回の「データウェアハウス」を参照してください。

図4 Amazon Redshiftクエリエディター V2
図4

定型分析のためのソリューション

提携分析のソリューションとして、Amazon QuickSightとその他のクラウド型BIツールについて取り上げます。

Amazon QuickSight

定型分析としてのデータの可視化と深堀分析を効率的に行うための有力な選択肢が、Amazon QuickSightです。

Amazon QuickSightは、AWSが提供するクラウド型のBIサービスで、AWS上のデータだけでなく、その他クラウド上、オンプレミス上にあるさまざまなデータソースのデータをモダンでスタイリッシュなUIでダッシュボードとして可視化してすばやくインサイトを提供し、定型分析の効率を向上させます。棒グラフ、折れ線グラフや散布図、ピボットテーブルや地図表現など多彩なビジュアルが用意されており、さまざまな定型分析のニーズに対応可能です。

また、Amazon AthenaやAmazon RedshiftといったAWSの分析サービスを活用している場合には、接続の親和性やセキュアに簡単にインテグレーションしやすいという意味でも、Amazon QuickSightを選択するメリットが大きいでしょう。

さらに、Amazon QuickSightはフルマネージド型のクラウドベースのサービスとして、エンタープライズグレードのセキュリティ、グローバルな可用性、組み込みの冗長性、Eメール配信や印刷しやすいページ分割形式でレポートを出力する機能(Paginated Reports)なども提供します。

Amazon QuickSightの使い勝手を手軽に体験するためのリソースとして、様々な種類のセルフハンズオンキットや、業界ごとのダッシュボードサンプルを参照できるAmazon QuickSight Gallary、自由にアクセスできるデモ環境としてのAmazon QuickSight Demo Centralなど多くのリソースが提供されています。ぜひチェックしてみてください。

図5 Amazon QuickSightの特徴とイメージ
図5
図6

その他クラウド型BIツール(SaaS)

近年ではクラウド/SaaS型のBIツールが増えており、それらが選択肢になることもあるでしょう。

たとえばTableau Cloudは、BIベンダーのTableau社が提供するクラウドで利用できるビジュアル分析環境です。同じくBIベンダーのDomo社が提供するSaaSであるDomoもデータドリブン経営に必要な機能を持つクラウドベースのBIツールの一つです。また、Microsoft社が提供するSaaS型のBIツールであるPower BIサービスも、クラウド上で簡単にレポートを作成してダッシュボードとして公開することができるサービスです。この他にも多くのクラウド/SaaS型のBIツールが増えてきているのが現状です。

BIツールを選択する際のポイントとして、使い勝手や機能、コストなどさまざまな観点がありますが、分析対象のデータに接続できるか、つまり使っている分析サービスをサポートしているかという点も重要です。

ここで紹介したクラウド/SaaS型のBIツールについては、第5回で取り上げたAmazon AthenaやAmazon RedshiftといったAWSの分析サービスとの接続もサポートしているので安心です。

データレイクやデータウェアハウスとBIツールは、ニーズに応じて好みのものを組み合わせて使えることも大きなポイントとなります。

まとめ

本稿では、データの活用をするにあたってのワークロードの整理とそれぞれに必要な要件、ソリューション選択の考え方について解説してきました。

本連載は第6回で終了となります。最後までお読みいただき、ありがとうございました。

おすすめ記事

記事・ニュース一覧