書籍概要

Rユーザのためのtidymodels[実践]入門
〜モダンな統計・機械学習モデリングの世界

著者
発売日
更新日

概要

Rには多くの分析手法を実行するパッケージが提供されていますが,同じ用途であってもパッケージごとに関数の記法が違ったり,データの入力形式や出力形式が違ったりするため,データの前処理やモデルの評価といった工程におけるコーディングは,意識しなければバラバラになってしまいます。また,これが原因でスムーズな分析パイプラインを作成できず,分析環境で行ったモデリングを本番システムへ移行することを考えると,その保守は困難を極めます。

これらの問題を解消するために開発され,統一的なインターフェースを提供するのがtidymodelsです。データ整形における同様のコーディングの問題を解決するためのパッケージ群で知られるtidyverseのプロジェクトの1つとして注目を浴びています。

データ分析の工程には,データ準備,モデルの作成,モデルの評価,モデルの改善,モデルの運用といった一連の工程があります。本書ではそれぞれの工程をtidymodelsパッケージ群で行う方法について解説します。tidymodelsパッケージ群を利用することで,スムーズなデータ分析パイプラインを効率的に構築できるようになるでしょう。

こんな方におすすめ

  • 統計・機械学習モデルの作成を効率化したいデータ分析者
  • Rユーザ

目次

  • tidymodelsとは
  • 本書の特徴
  • 本書の構成
  • 本書の対象読者
  • 本書で解説しなかったこと
  • 本書のサポートページ
  • ようこそtidymodelsの世界へ

1章 データの準備

  • 1-1 データ分割とリサンプリング法
  • 1-2 rsampleパッケージによるデータ分割のアプローチ
  • 1-3 無作為抽出によるデータ分割が不適切なケースへの対応
  • 1-4 リサンプリング法
  • 1-5 recipesパッケージによる前処理
  • 1-6 まとめと参考文献

2章 回帰モデルの作成

  • 2-1 statsパッケージによる線形回帰モデルの作成
  • 2-2 parsnipパッケージによる線形回帰モデルの作成
  • 2-3 parsnipパッケージの便利な機能
  • 2-4 yardstickパッケージによるモデルの評価
  • 2-5 まとめと参考文献

3章 分類モデルの作成

  • 3-1 分類モデルとは
  • 3-2 parsnipパッケージのpredict()関数の扱い方
  • 3-3 parsnipパッケージによる分類モデルの作成
  • 3-4 yardstickパッケージによる離散値の評価指標
  • 3-5 yardstickパッケージによる連続的な確率に対する評価指標
  • 3-6 まとめと参考文献

4章 モデルの運用

  • 4-1 workflowsパッケージによるレシピやモデル,データの変更
  • 4-2 workflowsetsパッケージによる複数レシピ・モデルの一元管理
  • 4-3 まとめと参考文献

5章 ハイパーパラメータチューニング

  • 5-1 ハイパーパラメータチューニングの流れ
  • 5-2 ハイパーパラメータチューニングの手法
  • 5-3 tuneパッケージによるハイパーパラメータチューニング
  • 5-4 まとめと参考文献

6章 自然言語処理を使ったtidymodels実践

  • 6-1 データと形態素解析器MeCabの準備
  • 6-2 tidymodelsによるモデリング
  • 6-3 まとめと参考文献

サポート

現在サポート情報はありません。

商品一覧