ML Systems Data-centric AI入門

「Data-centric AI入門」のカバー画像
著者
片岡裕雄かたおかひろかつ 監修
齋藤邦章さいとうくにあき清野舜きよのしゅん小林滉河こばやしこうが河原塚健人かわはらづかけんと宮澤一之みやざわかずゆき鈴木達哉すずきたつや 執筆
定価
3,520円(本体3,200円+税10%)
発売日
2025.1.8
判型
B5変形
頁数
272ページ
ISBN
978-4-297-14663-4 978-4-297-14664-1

概要

Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では、Data-centric AIの概要を解説したあとに、画像認識、自然言語処理、ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では、企業における実践的な取り組みを紹介します。

こんな方にオススメ

  • データセットの作成、データの学習方法に興味のある方
  • 基盤モデルに興味がある方

目次

  • まえがき

第1章 Data-centric AIの概要

  • 1.1 Data-centric AIとは
    • 1.1.1 Model-centric AIとData-centric AI
    • 1.1.2 ラベルの一貫性
    • 1.1.3 データセットサイズとデータ品質との関係
    • 1.1.4 MLOpsの役割
    • 1.1.5 ビッグデータからグッドデータへ
    • 1.1.6 まとめ
  • 1.2 データセットのサイズとモデルの性能の関係
  • 1.3 データの品質の重要性
    • 1.3.1 AIシステムにおける品質特性
    • 1.3.2 データの品質が与える影響
  • 1.4 おわりに

第2章 画像データ

  • 2.1 画像認識におけるData-Centric AIとは
  • 2.2 画像認識モデルの基礎知識
    • 2.2.1 代表的な画像認識タスクとデータセット
    • 2.2.2 CNN
    • 2.2.3 ViT
    • 2.2.4 モデルの評価方法
    • 2.2.5 モデルとデータのスケール
  • 2.3 データを拡張、生成する技術
    • 2.3.1 データ拡張とその恩恵
    • 2.3.2 人工的にデータを生成する技術
  • 2.4 不完全なアノテーションからの学習
    • 2.4.1 自己教師学習
    • 2.4.2 半教師付き学習
    • 2.4.3 モデルベースでのアノテーションデータのクリーニング方法
  • 2.5 画像と言語ペアの関係性を学習した基盤モデル
    • 2.5.1 CLIP
    • 2.5.2 BLIP
    • 2.5.3 Data-CentricなVLデータの評価とデータの安全性
  • 2.6 能動学習
    • 2.6.1 予測の不確かさに基づく考え方
    • 2.6.2 多様性に基づく考え方
    • 2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
  • 2.7 おわりに

第3章 テキストデータの収集と構築

  • 3.1 言語モデルの事前学習
  • 3.2 事前学習データの収集
    • 3.2.1 必要な事前学習データの規模
    • 3.2.2 データの収集戦略
    • 3.2.3 HTMLからの本文抽出
  • 3.3 ノイズ除去のためのフィルタリング
    • 3.3.1 なぜフィルタリングが必要か?
    • 3.3.2 ルールに基づくフィルタリング
    • 3.3.3 機械学習を用いたフィルタリング
  • 3.4 データからの重複除去
    • 3.4.1 なぜ重複除去が必要か?
    • 3.4.2 URLを用いた重複排除
    • 3.4.3 MinHash
  • 3.5 テキストデータ収集の限界
    • 3.5.1 複数エポックの利用
    • 3.5.2 データセットの多言語化
    • 3.5.3 品質の高いデータの利用
  • 3.6 おわりに

第4章 大規模言語モデルのファインチューニングデータ

  • 4.1 ファインチューニングとは
    • 4.1.1 ファインチューニングの概要
  • 4.2 Instruction Data
    • 4.2.1 よいInstruction Dataとは?
    • 4.2.2 既存のデータを活用したデータセット作成
    • 4.2.3 人手によるデータセット作成
    • 4.2.4 大規模言語モデルによるデータセット作成
  • 4.3 Preference Data
    • 4.3.1 Preference Dataの作成方法
    • 4.3.2 データセット
  • 4.4 ファインチューニングモデルの評価
    • 4.4.1 評価方法
    • 4.4.2 定量的な指標による評価
    • 4.4.3 人間や大規模言語モデルによる評価
    • 4.4.4 評価時の注意点
  • 4.5 日本語における大規模言語モデルのファインチューニング
    • 4.5.1 日本語ファインチューニングモデルの構築
    • 4.5.2 日本語評価データセット
  • 4.6 おわりに

第5章 ロボットデータ

  • 5.1 はじめに
  • 5.2 RTシリーズの概要
    • 5.2.1 RT-1
    • 5.2.2 RT-2
    • 5.2.3 RT-X
    • 5.2.4 その他
  • 5.3 多様なロボット
    • 5.3.1 単腕ロボット
    • 5.3.2 双腕ロボット
    • 5.3.3 台車型ロボット
    • 5.3.4 脚型ロボット
    • 5.3.5 その他のロボット
  • 5.4 ロボットにおけるデータ収集
    • 5.4.1 ユニラテラルなオンライン遠隔教示
    • 5.4.2 バイラテラルなオンライン遠隔教示
    • 5.4.3 オフライン教示
  • 5.5 データセット
    • 5.5.1 QT-Opt
    • 5.5.2 RoboNet
    • 5.5.3 BridgeData V2
    • 5.5.4 BC-Z
    • 5.5.5 Interactive Language
    • 5.5.6 DROID
    • 5.5.7 その他
  • 5.6 データ拡張
    • 5.6.1 画像データ拡張
    • 5.6.2 言語データ拡張
  • 5.7 おわりに

第6章 Data-centric AIの実践例

  • 6.1 テスラ
  • 6.2 メタ
  • 6.3 チューリング
  • 6.4 LINEヤフー
  • 6.5 GO
  • 6.6 コンペティションとベンチマーク
    • 6.6.1 Data-centric AI Competition
    • 6.6.2 DataComp
    • 6.6.3 DataPerf
    • 6.6.4 Kaggle
  • 6.7 Data-centric AI実践のためのサービス
    • 6.7.1 Snorkel AI
    • 6.7.2 Cleanlab
  • 6.8 おわりに

プロフィール

片岡裕雄かたおかひろかつ

2014年 慶應義塾大学大学院 博士(工学)。2024年現在、産業技術総合研究所 上級主任研究員、オックスフォード大学 Academic Visitor および cvpaper.challenge 主宰。時空間モデルのベースライン3D ResNetの研究開発、実データ不要の事前学習法 数式ドリブン教師あり学習(Formula-Driven Supervised Learning; FDSL)を提案。2019/2022年度AIST Best Paper、2020年 ACCV 2020 Best Paper Honorable Mention Award、2023年 BMVC 2023 Best Industry Paper Finalist。研究はMIT Technology Reviewや日経等メディアにて掲載。本書の監修を担当。

齋藤邦章さいとうくにあき

OMRON SINIC X Corporation シニアリサーチャー

2018年に東京大学情報理工学系研究科創造情報学専攻の修士課程を修了し、アメリカBoston UniversityのComputer Science専攻の博士課程に進学。Nvidia, Meta, Googleでリサーチインターンを経験。大学およびインターン先では、ドメイン適合、半教師付き学習、画像生成、Vision-Languageに関する研究を行い、2023年に博士号を取得。2023年より現職。現在は画像と言語両方に関わる研究に従事。本書の2章の執筆を担当。

清野舜きよのしゅん

SB Intuitions株式会社 シニアリサーチエンジニア

2022年に東北大学大学院情報科学研究科博士後期課程を修了し、博士(情報科学)を取得。2019年より理化学研究所革新知能統合研究センターにて勤務したのち、 2022年にLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職。現在は主に大規模言語モデルの研究開発に従事。本書の3章の執筆を担当。

小林滉河こばやしこうが

SB Intuitions株式会社 チーフリサーチエンジニア

2021年に筑波大学大学院図書館情報メディア研究科修士課程修了。同年よりLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職にて、大規模言語モデルのファインチューニングに関する研究開発およびチームマネジメントに従事。本書の4章の執筆を担当。

河原塚健人かわはらづかけんと

東京大学大学院情報理工学系研究科特任助教

2017年に東京大学工学部機械情報工学科を卒業、2019年・2022年に東京大学大学院情報理工学系研究科知能機械情報学専攻の修士課程・博士課程を修了し、博士(情報理工学)を取得。2022年より現職。筋骨格ヒューマノイドの身体設計と制御, 深層学習に基づく知能ロボットシステムの研究に従事。本書の5章の執筆を担当。

宮澤一之みやざわかずゆき

GO株式会社にてコンピュータビジョン技術の研究開発や実装を担うチームのリーダーを務める。2010年に東北大学にて博士号を取得後、三菱電機株式会社に入社し、映像解析や自動外観検査などの研究開発に携わる。2019年より株式会社ディー・エヌ・エーにてモビリティ向けのコンピュータビジョン技術の研究開発およびチームマネジメントに従事し、2020年に同社が関わり設立された株式会社Mobility Technologiesに転籍。2023年4月にGO株式会社へ商号変更。プライベートでは、1,200人以上のメンバーが所属するData-Centric AI Communityを運営し、定期的な勉強会を開催している。本書の1章、6章の執筆を担当。

鈴木達哉すずきたつや

2020年に上智大学大学院理工学研究科を修了後、株式会社ディー・エヌ・エーに入社。現在はGO株式会社へ出向し、コンピュータビジョンに関する研究開発に従事。プライベートでは、Data-Centric AI Communityの運営に参加し、定期的な勉強会を開催。本書の6章の執筆を担当。