HadoopとMahoutをインストールする
Hadoopのバージョンに注意
前回はマーケットバスケット分析の理論編として、アソシエーション分析とアプリオリアルゴリズムについて解説しました。今回は実践編として、Mahoutが実装しているアプリオリアルゴリズムを改良したFP-Growthを用いて、実際にマーケットバスケット分析を行ってみましょう。
そのための準備として、まずMahoutとHadoopをインストールする必要がありますが、
その際1つ注意する点があります。現在のMahoutの最新バージョンである0.7は、利用するHadoopのバージョンが0.20系である必要があります。しかし、Apacheの公式サイトからはすでにHadoopのバージョン0.20をダウンロードすることはできません。
Hadoopのバージョン0.20をお持ちでない方は、Cloudera社のページからダウンロードすることができます。このバージョンのHadoopのインストール方法はこちらにまとめられています。
Mahoutのインストール方法は、公式サイトに情報がまとめられています。
実際の開発ではIDEなどを用いて、MahoutやHadoop内部の処理もステップデバッグを行うことができれば便利です。特にMahoutはまだ情報が十分でないため、ソースを追う必要がある局面も考えられます。
Eclipseを利用する場合の環境構築方法は、mahout.jpのページに情報がまとめられています。
サンプルデータをダウンロードする
今回は、次のサンプルデータを利用してマーケットバスケット分析を行います。
サンプルデータはCSV形式となっています。各行がマーケットバスケット分析における各トランザクションデータに該当します。カンマで区切られた数値は、そのトランザクションで購入された商品のIDを表しています。
今回のサンプルデータは商品数1,000件、トランザクション数10,000件で作成しています。
Mahoutを実行する2つの方法
Mahoutは、次の2つの実行方法をサポートしています。
- コマンドラインから実行する
- プログラム内部からライブラリとして実行する
「とりあえずデータを分析してみたい」といった場合では前者が、「任意のプログラムへ組み込んで利用したい」という場合は後者が向いているでしょう。
本連載では、この2つの方法についてそれぞれ解説します。
Mahoutをコマンドラインから実行するには
Mahoutをコマンドラインで利用する場合、Mahoutのインストールディレクトリから次のコマンドを実行します。
何もオプションを指定せずに実行すると、第1引数に指定できるオプションが表示されます。この中に含まれている「fpg」が、今回利用するMahoutのFP-Growth実装です。つまり、fpgは次のコマンドで実行できます。
コマンドラインからFP-Growth以外のアルゴリズムを実行する場合も、fpgと同じように実行したいアルゴリズムを第1引数に指定します。アルゴリズムだけでなく、出力結果の閲覧などの実行コマンドも第1引数で指定します。
FP-Growthをコマンドラインから実行する
入力ファイルと出力先を指定する
では、コマンドラインからFP-Growthを実行してみましょう。
コマンドラインからMahoutのインストールディレクトリに移動して、次のコマンドを実行してください。
ここでは「-i」と「-o」という2つのオプションを利用していますが、それぞれ次の事柄を意味します。
- -i(--input)⇒ 入力ファイル
- -o(--output)⇒ 出力先
無事、次のような結果がコマンドライン上に出力されたでしょうか。
この結果は次のように解釈します。
よって、この出力は次の意味になります。
- 商品ID392の出現頻度(支持度)が78
- 商品ID392と392の組み合わせの出現頻度(支持度)が5
- 商品ID38の出現頻度(支持度)が79
このようにMahoutを利用すると、かんたんかつ高速にアソシエーション分析を行うことができます。
なお、出力を再度確認したい場合は次のようにseqdumperを利用して、出力先に指定したHDFS上にある出力を表示させます。
最低支持度を指定する
先の出力では、商品ID392や商品ID38の組み合わせのうち、最も頻度が少ないものが3となっています。これは前回解説した最低支持度のデフォルト値が3であるためです。
この値は、--minSupport(または-s)オプションで指定することができます。
この値を大きくすればするほど、処理が速くなりますが、出力として得ることのできる組み合わせの数が減少します。
maxHeapSizeで処理対象のアイテムを調整する
続いて、先の出力における商品ID865の支持度に注目してください。商品ID865については頻度のみが出力され、商品ID865とほかの商品との組み合わせの頻度が表示されていません。
これは処理対象のアイテム数としてデフォルト値の50が採用されたためです。最大何個のアイテムを処理対象とするかは、--maxHeapSize(または-k)オプションを利用すれば指定することができます。
試しにmaxHeapSizeの値を100や1000などのより大きな値に設定してみてください。商品ID865やそのほかの商品でも、ほかの商品との組み合わせの頻度が出力されることが確認できるはずです。
MapReduceで実行する
Mahoutのメリットの1つとして、Hadoopを利用して分散処理できることが挙げられます。しかし特にオプションを指定しない場合、MahoutはMapReduceを利用せずにfpgを実行します。MapRecudeで実行したい場合は、次のように--methodオプションにmapreduceを指定します。
なお、MapReduceを利用した実行の場合はデフォルトのsequential実行の場合と異なり、入力ファイルはデフォルトではHDFS上を参照します。その際、ローカルのファイルシステムを参照させたい場合は「file:///」などを明示的に指定することで対応できます。
これら以外にも、いくつかオプションが用意されています。次のコマンドで確認できますので、適宜参照して利用してください。
FP-Growthをライブラリ呼び出しで実行する
コマンドラインから実行する場合も同じメソッドが呼び出されている
ライブラリを利用してMahoutのFP-Growthを利用する場合は、次のFPGrowthクラスのgenerateTopKFrequentPatternsメソッドを利用します。
前述したコマンドラインからの実行は次のFPGrowthDriverクラスで実装されていますが、この内部でもFPGrowthクラスのメソッドが呼び出されています。
そのため、ライブラリ呼び出しで実装する場合はこのコマンドラインのコードがとても参考になります。適宜参照することをおすすめします。
あるアイテムに注目した出力を得るには
MahoutのFP-Growthのコマンドライン実装には1つ問題があります。それは、すべてのアイテムの組み合わせの頻度(支持度)を出力しようとする点です。
そのため、「この商品とよくいっしょに売れる商品を知りたい」といった、ある特定のアイテムにのみ注目する場合、処理時間もリソースも無駄に多くかかり、大量の出力の中から特定のアイテムの情報をわざわざ探し出さなければなりません。
出力するアイテムを限定する方法が提供されていないのは、コマンドライン実行の実装であるFPGrowthDriverクラスにて、コマンドライン引数として受け取る実装がなされていないためです。
ただし、MahoutのFPGrowth実装そのものでは、上記generateTopKFrequentPatternsメソッドで第5引数として指定するreturnableFeaturesにて、出力するアイテムを限定することができます。今回のサンプルデータであれば、returnableFeaturesに392を指定すれば商品ID392を含む組み合わせのみを表示することができます。
次回は、行動履歴からのユーザのグループ分け(セグメンテーション分け)をテーマに取り上げます。お楽しみに!