Pythonクローリング&スクレイピング
―データ収集・解析のための実践開発ガイド―
- 加藤耕太 著
- 定価
- 3,520円(本体3,200円+税10%)
- 発売日
- 2016.12.16[在庫なし]
- 判型
- B5変形
- 頁数
- 400ページ
- ISBN
- 978-4-7741-8367-1 978-4-7741-8684-9
概要
Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。基本的なクローリングやAPIを活用したデータ収集,HTMLやXMLの解析から,データ取得後の分析や機械学習前の処理まで解説。データの収集・解析,活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん,基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ,強力なフレームワークを活用して高効率に開発できます。
こんな方にオススメ
- 業務や学術研究でクローラーを作りたい人
- Pythonの一歩先の活用方法に興味のある人
目次
1. クローリング・スクレイピングとは何か
- 1. 本書が取り扱う領域
- 2. Wgetによるクローリング
- 3. Unixコマンドによるスクレイピング
- 4. gihyo.jpのスクレイピング
- 5. まとめ
2. Pythonではじめるクローリング・スクレイピング
- 1. Pythonを使うメリット
- 2. Pythonのインストールと実行
- 3. Pythonの基礎知識
- 4. Webページを取得する
- 5. Webページからデータを抜き出す
- 6. データを保存する
- 7. Pythonによるスクレイピングの流れ
- 8. まとめ
3. 強力なライブラリの活用
- 1. ライブラリのインストール
- 2. Webページを簡単に取得する
- 3. HTMLのスクレイピング
- 4. RSSのスクレイピング
- 5. データベースに保存する
- 6. クローラーとURL
- 7. Pythonによるクローラーの作成
- 8. まとめ
4. 実用のためのメソッド
- 1. クローラーの分類
- 2. クローラー作成にあたっての注意
- 3. 繰り返しの実行を前提とした設計
- 4. クロール先の変化に対応する
- 5. まとめ
5. クローリング・スクレイピングの実践とデータの活用
- 1. データセットの取得と活用
- 2. APIによるデータの収集と活用
- 3. 時系列データの収集と活用
- 4. オープンデータの収集と活用
- 5. Webページの自動操作
- 6. JavaScriptを使ったページのスクレイピング
- 7. 取得したデータの活用
- 8. まとめ
6. フレームワーク Scrapy
- 1. Scrapyの概要
- 2. Spiderの作成と実行
- 3. 実践的なクローリング
- 4. 抜き出したデータの処理
- 5. Scrapyの設定
- 6. Scrapyの拡張
- 7. クローリングによるデータの収集と活用
- 8. 画像の収集と活用
- 9. まとめ
7. クローラーの継続的な運用・管理
- 1. クローラーをサーバーで動かす
- 2. クローラーの定期的な実行
- 3. クローリングとスクレイピングの分離
- 4. クローリングの高速化・非同期化
- 5. クラウドを活用する
- 6. まとめ