ML Systems 生成AIの安全性入門

「生成AIの安全性入門」のカバー画像
著者
綿岡晃輝わたおかこうき 著
定価
3,300円(本体3,000円+税10%)
発売日
2026.6.24
判型
A5
頁数
256ページ
ISBN
978-4-297-15702-9

概要

生成AIの進展は社会や産業に大きな変革をもたらす一方、生成AIが生み出す有害なコンテンツや意図しない挙動といったリスクに関する課題が浮き彫りになっています。本書は、エンジニア、研究者を対象に、生成AIにおけるリスクとその対処法を体系的にまとめます。1章ではAI安全性を定義し、近年の動向を概説します。2章では現実に直面する脅威を分類・整理します。3章でOpenAIが公開しているモデルスペックを題材にAIの理想的な振る舞いについて考えます。第4章で安全性に関する評価方法について紹介したあと、5章ではレッドチーミングについて解説します。6章と7章でモデルレベル、システムレベル双方からの安全性向上技術を解説し、最終章でAI安全性の未来について考察します。安全な生成AIの開発と運用に必要となる知識を1冊にまとめます。

こんな方にオススメ

  • AI安全性に興味を持ち始めた学生やビジネスマン
  • AI安全性を専門的に扱う開発・研究者

目次

第1章 AI安全性の基礎

  • 1.1 AI安全性とは
  • 1.2 AI安全性の社会的動向
  • 1.3 まとめ

第2章 AIリスクの分類

  • 2.1 不快表現を生成するリスク
  • 2.2 情報漏洩リスク
  • 2.3 誤情報リスク
  • 2.4 悪用リスク
  • 2.5 精神的依存リスク
  • 2.6 その他の外部に潜むリスク
  • 2.7 まとめ

第3章 AIの理想的な振る舞い

  • 3.1 モデルスペックの構成
  • 3.2 安全性ルール:制約の範囲を超えない
  • 3.3 他組織のルール
  • 3.4 まとめ

第4章 安全性評価技術:ベンチマーク

  • 4.1 LLMを評価する安全性ベンチマーク
  • 4.2 MLLMを評価する安全性ベンチマーク
  • 4.3 まとめ

第5章 安全性評価技術:レッドチーミング

  • 5.1 レッドチーミングの概要
  • 5.2 攻撃手法の体系化
  • 5.3 レッドチーミング実践
  • 5.4 まとめ

第6章 安全性向上技術:モデルレベル

  • 6.1 事前学習における安全性向上技術
  • 6.2 SFTにおける安全性向上技術
  • 6.3 RLHFにおける安全性向上技術
  • 6.4 合成データアプローチ
  • 6.5 推論フェーズにおける安全性制御
  • 6.6 まとめ

第7章 安全性向上技術:システムレベル

  • 7.1 ガードレール
  • 7.2 ガードレールコンポーネント
  • 7.3 ガードレールツールキット
  • 7.4 まとめ

第8章 AI安全性の未来

  • 8.1 対話から実行へ:エージェントAIのリスク
  • 8.2 デジタルから物理世界へ:ロボティクスAIのリスク
  • 8.3 人知を超えた知性へ:AGI/ASIのリスク
  • 8.4 まとめ

付録A 実務クイックスタート

プロフィール

綿岡晃輝わたおかこうき

2019年、神戸大学大学院システム情報工学科博士前期課程修了。同年、LINE株式会社(現・LINEヤフー株式会社)に入社し、Trustworthy AIチームに配属。LLM(大規模言語モデル)の信頼性および安全性に関する研究開発に従事。2024年よりSB Intuitions株式会社に入社し、Responsible AIチームのリーダーとして、大規模言語モデルやVLM(視覚言語モデル)における安全性向上に関する研究開発に携わっている。総務省AIセキュリティ分科会構成員。