書籍概要

ML Systems

Data-centric AI入門

著者: 片岡裕雄　監修，齋藤邦章，清野舜，小林滉河，河原塚健人，宮澤一之，鈴木達哉　執筆
発売日: 2025年1月8日
更新日: 2025年1月8日

概要

Data-centric AIとは，機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した，モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては，固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し，そのモデルを改善することに関心が寄せられていました。しかし，このモデルを中心としたアプローチでは，データセットへの過度な依存やデータセットが抱える課題への無意味な適合により，実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで，データ拡張，アノテーションの効率化や一貫性の担保，能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では，Data-centric AIの概要を解説したあとに，画像認識，自然言語処理，ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では，企業における実践的な取り組みを紹介します。

こんな方におすすめ

データセットの作成，データの学習方法に興味のある方
基盤モデルに興味がある方

宮澤一之（みやざわかずゆき）

GO株式会社にてコンピュータビジョン技術の研究開発や実装を担うチームのリーダーを務める。2010年に東北大学にて博士号を取得後，三菱電機株式会社に入社し，映像解析や自動外観検査などの研究開発に携わる。2019年より株式会社ディー・エヌ・エーにてモビリティ向けのコンピュータビジョン技術の研究開発およびチームマネジメントに従事し，2020年に同社が関わり設立された株式会社Mobility Technologiesに転籍。2023年4月にGO株式会社へ商号変更。プライベートでは，1,200人以上のメンバーが所属するData-Centric AI Communityを運営し，定期的な勉強会を開催している。本書の1章，6章の執筆を担当。

サンプル

1.1　Data-centric AIとは
- 1.1.1　Model-centric AIとData-centric AI
- 1.1.2　ラベルの一貫性
- 1.1.3　データセットサイズとデータ品質との関係
- 1.1.4　MLOpsの役割
- 1.1.5　ビッグデータからグッドデータへ
- 1.1.6　まとめ
1.2　データセットのサイズとモデルの性能の関係
1.3　データの品質の重要性
- 1.3.1　AIシステムにおける品質特性
- 1.3.2　データの品質が与える影響
1.4　おわりに

第2章　画像データ

2.1　画像認識におけるData-Centric AIとは
2.2　画像認識モデルの基礎知識
- 2.2.1　代表的な画像認識タスクとデータセット
- 2.2.2　CNN
- 2.2.3　ViT
- 2.2.4　モデルの評価方法
- 2.2.5　モデルとデータのスケール
2.3　データを拡張，生成する技術
- 2.3.1　データ拡張とその恩恵
- 2.3.2　人工的にデータを生成する技術
2.4　不完全なアノテーションからの学習
- 2.4.1　自己教師学習
- 2.4.2　半教師付き学習
- 2.4.3　モデルベースでのアノテーションデータのクリーニング方法
2.5　画像と言語ペアの関係性を学習した基盤モデル
- 2.5.1　CLIP
- 2.5.2　BLIP
- 2.5.3　Data-CentricなVLデータの評価とデータの安全性
2.6　能動学習
- 2.6.1　予測の不確かさに基づく考え方
- 2.6.2　多様性に基づく考え方
- 2.6.3　予測の不確かさとデータの多様性両方に基づく考え方
2.7　おわりに

第3章　テキストデータの収集と構築

3.1　言語モデルの事前学習
3.2　事前学習データの収集
- 3.2.1　必要な事前学習データの規模
- 3.2.2　データの収集戦略
- 3.2.3　HTMLからの本文抽出
3.3　ノイズ除去のためのフィルタリング
- 3.3.1　なぜフィルタリングが必要か？
- 3.3.2　ルールに基づくフィルタリング
- 3.3.3　機械学習を用いたフィルタリング
3.4　データからの重複除去
- 3.4.1　なぜ重複除去が必要か？
- 3.4.2　URLを用いた重複排除
- 3.4.3　MinHash
3.5　テキストデータ収集の限界
- 3.5.1　複数エポックの利用
- 3.5.2　データセットの多言語化
- 3.5.3　品質の高いデータの利用
3.6　おわりに

第4章　大規模言語モデルのファインチューニングデータ

4.1　ファインチューニングとは
- 4.1.1　ファインチューニングの概要
4.2　Instruction Data
- 4.2.1　よいInstruction Dataとは？
- 4.2.2　既存のデータを活用したデータセット作成
- 4.2.3　人手によるデータセット作成
- 4.2.4　大規模言語モデルによるデータセット作成
4.3　Preference Data
- 4.3.1　Preference Dataの作成方法
- 4.3.2　データセット
4.4　ファインチューニングモデルの評価
- 4.4.1　評価方法
- 4.4.2　定量的な指標による評価
- 4.4.3　人間や大規模言語モデルによる評価
- 4.4.4　評価時の注意点
4.5　日本語における大規模言語モデルのファインチューニング
- 4.5.1　日本語ファインチューニングモデルの構築
- 4.5.2　日本語評価データセット
4.6　おわりに

第5章　ロボットデータ

5.1　はじめに
5.2　RTシリーズの概要
- 5.2.1　RT-1
- 5.2.2　RT-2
- 5.2.3　RT-X
- 5.2.4　その他
5.3　多様なロボット
- 5.3.1　単腕ロボット
- 5.3.2　双腕ロボット
- 5.3.3　台車型ロボット
- 5.3.4　脚型ロボット
- 5.3.5　その他のロボット
5.4　ロボットにおけるデータ収集
- 5.4.1　ユニラテラルなオンライン遠隔教示
- 5.4.2　バイラテラルなオンライン遠隔教示
- 5.4.3　オフライン教示
5.5　データセット
- 5.5.1　QT-Opt
- 5.5.2　RoboNet
- 5.5.3　BridgeData V2
- 5.5.4　BC-Z
- 5.5.5　Interactive Language
- 5.5.6　DROID
- 5.5.7　その他
5.6　データ拡張
- 5.6.1　画像データ拡張
- 5.6.2　言語データ拡張
5.7　おわりに

第6章　Data-centric AIの実践例

6.1　テスラ
6.2　メタ
6.3　チューリング
6.4　LINEヤフー
6.5　GO
6.6　コンペティションとベンチマーク
- 6.6.1　Data-centric AI Competition
- 6.6.2　DataComp
- 6.6.3　DataPerf
- 6.6.4　Kaggle
6.7　Data-centric AI実践のためのサービス
- 6.7.1　Snorkel AI
- 6.7.2　Cleanlab
6.8　おわりに

サポート

現在サポート情報はありません。

Gihyo Digital Publishing

技術評論社の電子書籍サイト

書籍概要

ML Systems

Data-centric AI入門