RユーザのためのRStudio[実践]入門
―tidyverseによるモダンな分析フローの世界―
- 松村優哉,湯谷啓明,紀ノ定保礼,前田和寛 著
- 定価
- 3,058円(本体2,780円+税10%)
- 発売日
- 2018.6.29[在庫なし]
- 判型
- B5変形
- 頁数
- 240ページ
- ISBN
- 978-4-7741-9853-8 978-4-7741-9854-5
概要
RStudioはR言語のIDE(開発環境)です。エディタ,コンソール,グラフなどを1つの画面内で確認できるほか,データ分析プロジェクトをスムーズに進めるための機能が豊富に用意されているので,RユーザにとってRStudioを利用したデータ分析はスタンダードになっています。本書はRStudioの基本的な機能を解説したあとに,データ分析ワークフローを一通り解説していきます。データの収集(2章),データの整形(3章),可視化(4章),レポーティング(5章)など,データ分析に欠かせないこれらの要素の基礎を押さえることができます。また,本書はtidyverseパッケージを用いてこれらのデータ分析ワークフローを解説している側面を持ちます。tidyverseの考えに触れ,モダンなデータ分析をはじめましょう。
こんな方にオススメ
- Rユーザ,データサイエンティスト,RStudioを使ってみたい方
目次
第1章 RStudioの基礎
- 1-1 RStudioのダウンロードとインストール
- macOS
- Windows
- 1-2 RStudioの基本操作
- RStudioのインターフェース
- プロジェクト機能
- Rスクリプトの新規作成と保存
- Rのコマンドの実行
- オブジェクトの確認
- 補完機能
- 1-3 RStudioを自分好みにカスタマイズ
- RStudio全般
- コーディング
- 外観
- Terminal
- キーボードショートカット
- 1-4 ファイルの読み込み
- Rの標準関数の問題点
- readrパッケージ
- Excelファイルの読み込み
- SAS,SPSS,STATAファイルの読み込み
- RStudio (GUI) によるデータの読み込み
- ファイル読み込みのまとめ
- 1-5 Rで困ったときは
- ヘルプを使う
- Vignetteを見てみる
- チートシートを使う
- 1-6 まとめ
第2章 スクレイピングによるデータ収集
- 2-1 なぜスクレイピングが必要か
- スクレイピングとは
- 手作業によるデータ取得の限界
- 2-2 スクレイピングに必要なWeb知識
- HTML
- CSS
- XMLとXPath
- 2-3 Rによるスクレイピング入門
- Webページタイトルの抽出
- %>%(パイプ)演算子
- 2-4 スクレイピング実践
- 表形式のデータを取得
- 複数のページから取得
- 2-5 ブラウザの自動操作
- ブラウザ自動操作の必要性
- RSelenium パッケージの導入
- Rによるブラウザの操作
- 2-6 API
- APIとは
- rtweetパッケージによるTwitterデータの収集
- ツイートの収集
- COLUMN Webスクレイピングをするときの注意点
- 2-7 まとめ
- 参考文献
第3章 dplyr/tidyrによるデータ前処理
- 3-1 tidy dataとは
- tidy dataの定義
- 3-2 tidyrによるtidy dataへの変形
- gather()による縦長データへの変形
- spread()による横長のデータへの変形
- 3-3 dplyrによる基本的なデータ操作
- tibbleとデータフレームの違い
- 1つのデータフレームを操作する関数の共通点と%>%演算子による処理のパイプライン化
- filter()による行の絞り込み
- COLUMN dplyrの関数内でのコード実行
- arrange()によるデータの並び替え
- select()による列の絞り込み
- mutate()による列の追加
- summarise()によるデータの集計計算
- 3-4 dplyrによる応用的なデータ操作
- グループ化
- COLUMN ウィンドウ関数
- COLUMN selectのセマンティクスとmutateのセマンティクス,tidyeval
- 複数の列への操作
- tidy dataへの変形
- scoped function
- 3-5 dplyrによる2つのデータセットの結合と絞り込み
- inner_join()によるデータの結合
- さまざまなキーの指定方法
- inner_join()以外の関数によるデータの結合
- semi_join(),anti_join()による絞り込み
- 3-6 まとめ
第4章 ggplot2によるデータ可視化
- 4-1 可視化の重要性
- 4-2 ggplot2パッケージを用いた可視化
- 準備
- エステティックマッピング
- COLUMN グラフに肉付けする
- 統計的処理:stat
- COLUMN X軸に離散変数をマッピングした場合における折れ線グラフ
- 配置の指定:position
- 軸の調整
- グラフの保存
- 4-3 他者と共有可能な状態に仕上げる
- テーマの変更
- 文字サイズやフォントの変更
- 配色の変更
- ラベルを変更する
- 4-4 便利なパッケージ
- GUIベースでggplotオブジェクトを作成する
- 複数のグラフをパネルで並べる
- 表示される水準の順番を変更したい
- 4-5 まとめ
- 参考文献
第5章 R Markdownによるレポート生成
- 5-1 分析結果のレポーティング
- ドキュメント作成の現場
- 手作業によるドキュメント作成の問題点
- 5-2 R Markdown入門
- Hello, R Markdown
- Rmdファイルと処理フロー
- Markdownの基本
- Rチャンク
- ドキュメントの設定
- RStudioで使える便利なTips
- 5-3 出力形式
- html_document形式
- pdf_document形式
- Word_document形式
- スライド出力
- R Markdownの出力形式を提供するパッケージ
- COLUMN 日本語環境での注意点
- 5-4 まとめ
- 参考URL
プロフィール
松村優哉
慶應義塾大学大学院経済学研究科在籍。専門はベイズ統計学,統計的因果推論およびそれらのマーケティングへの応用。研究および趣味でRを使用し,ブログ(https://y-mattu.hatenablog.com/)にてRやPython,SASの情報を発信してるほか,Rの勉強会Tokyo.Rの運営にも携わる。著書に『データサイエンティストのための最新知識と実践 Rではじめよう! [モダン]なデータ分析』(マイナビ出版, 2017)。本書の第1章,第2章を執筆。
ホームページ:https://ymattu.github.io/
湯谷啓明
IT企業勤務。データの可視化への興味からggplot2を知り,Rを使い始める。tidyverseへのコントリビューションも多数。技術ブログ(https://notchained.hatenablog.com/)でもRに関する小ネタや最新情報を発信している。好きな言語はRと忍殺語。著書に「Rによるスクレイピング入門」(C&R研究所,2017),翻訳書に「Rプログラミング本格入門」(共立出版,2017)。本書の「tidyverseとは」,第3章を執筆。
紀ノ定保礼
静岡理工科大学情報学部 講師。博士(人間科学)。同志社大学文化情報学部在学中にRを習うも,当時はRStudioがなく,いつしか疎遠になる。統計モデリングとtidyverseへの興味から再びRを使い始め,今ではRはなくてはならない存在に。大阪大学大学院人間科学研究科助教を経て,現職。専門は,認知心理学,交通心理学,人間工学。翻訳書に『ベイズ統計モデリング-R, JAGS, Stanによるチュートリアル-原著第2版』(共立出版, 2017)。本書の第4章を執筆。
前田和寛
IT企業勤務。2018年3月まで短期大学に講師として勤務。分析をするためにRを使いはじめ,気付いたら全国各地のRコミュニティで発表するようになる。Webページ(https://kazutan.github.io/kazutanR/)などでRに関する情報を発信中。翻訳書に『ベイズ統計モデリング-R, JAGS, Stanによるチュートリアル-原著第2版』(共立出版, 2017)。本書の「はじめに」,第5章を執筆。