はじめに
前回紹介したJupyterではブラウザ上でPythonを実行したり、
もちろん初めからPandasの多種多様な統計処理を扱う必要はありません。最初はPandasの持つデータの入出力を簡単に行ったり、
Pandasの基本的な使い方
サンプルデータで試す
下記のサンプルを元に試してみます。
host,method,status
153.232.253.97,GET,200
153.232.253.97,GET,401
253.23.23.1,GET,200
これをsample.
# グラフをブラウザ内で表示するために呼び出します %matplotlib inline # Pandasの読み込み import pandas as pd # Jupyterでのlsコマンド %ls
data:image/s3,"s3://crabby-images/19411/19411de1e67591506a80e7f73c3e1b14a945a099" alt="図1 Pandasの読み込み 図1 Pandasの読み込み"
# CSVデータを変数aに取り込む(statusは文字列にしておきたいので、読み込む時にstringを指定する) a = pd.read_csv("sample.csv", dtype={'status':'S'} ) # 読み込んだ変数aの内容をそのまま参照 a # 各columnのデータ数、平均、分散などの統計量をざっと見ることができます a.describe
data:image/s3,"s3://crabby-images/5316a/5316a5bd85edff2aa68d06cf4f039624b8e60321" alt="図2 CSVデータの取り込み 図2 CSVデータの取り込み"
# ピボットテーブルを作る
a.T
data:image/s3,"s3://crabby-images/0e387/0e38737adba771359a654aac8fc494d75cdf1ebe" alt="図3 ピボットテーブルを作る 図3 ピボットテーブルを作る"
# 'host'カラムのデータのみ取得する a['host'] # 1行目から2行目までを取得する a[1:3]
data:image/s3,"s3://crabby-images/e2ddf/e2ddf53cb15a43b5b2f6c87df93068bcc67e1a32" alt="図4 hostカラムのデータのみ取得する 図4 hostカラムのデータのみ取得する"
# それぞれのカラムごとの件数をカウントする a.count() # host毎の統計情報を参照する a.groupby('host').describe()
data:image/s3,"s3://crabby-images/6edbe/6edbe15ddea6a8b28c97027f610dbe7a607df808" alt="図5 hostごとに件数を集計 図5 hostごとに件数を集計"
# status が '200'のデータのみ取得する a[a['status']=='200'] # status毎の件数を集計して、棒グラフで描画 a['status'].value_counts().plot(kind='bar')
さて、
MySQLからのデータの入力
それではまずはMySQLからデータを取得してみましょう。
SQLと連携させるインターフェースを、%load_
を実行します。これにより%%sql
と先頭につけることで、
%load_ext sql
備考:上記コマンドを実行した場合に、
/usr/local/pyenv/versions/3.4.3/lib/python3.4/site-packages/IPython/config.py:13: ShimWarning: The `IPython.config` package has been deprecated. You should import from traitlets.config instead. "You should import from traitlets.config instead.", ShimWarning) /usr/local/pyenv/versions/3.4.3/lib/python3.4/site-packages/IPython/utils/traitlets.py:5: UserWarning: IPython.utils.traitlets has moved to a top-level traitlets package. warn("IPython.utils.traitlets has moved to a top-level traitlets package.")
MySQLへの接続情報を付与して、
%%sql mysql://username:password@hostname/database show tables;
また、
%%sql desc tables
data:image/s3,"s3://crabby-images/bee3e/bee3e0059b61fecbce0ff0a08cbe7f2725951613" alt="図6 MySQLからデータを取り込み実行 図6 MySQLからデータを取り込み実行"
SQLの結果を取得するには、
下記のようにワンライナーで実行するか
results=%%sql SELECT host, path, status, response_time FROM accesslog
クエリを実行した後に_
を利用することで直前に実行されたコマンドの結果を代入したり、
%%sql SELECT host, path, status, response_time FROM accesslog
results = _
results = Out[14]
上記の場合は、
results = results.DataFrame()
data:image/s3,"s3://crabby-images/c7585/c7585004dd61c2870b1875d80fddbd9ce9cff339" alt="図7 SQL実行結果の取得 図7 SQL実行結果の取得"
ちなみにDataFrameとは、
最後にこのMySQLのデータで、.boxplot()
を利用します。
results[['host','response_time']].groupby('host').boxplot(return_type='axes',layout=(1,3))
data:image/s3,"s3://crabby-images/c9968/c9968d9503e4dedce7d19e328a7a7760ddea8253" alt="図8 箱ヒゲ図の表示 図8 箱ヒゲ図の表示"
まとめ
アドホック分析環境として、
次回は、