目次
第1章 AI安全性の基礎
- 1.1 AI安全性とは
- 1.2 AI安全性の社会的動向
- 1.3 まとめ
第2章 AIリスクの分類
- 2.1 不快表現を生成するリスク
- 2.2 情報漏洩リスク
- 2.3 誤情報リスク
- 2.4 悪用リスク
- 2.5 精神的依存リスク
- 2.6 その他の外部に潜むリスク
- 2.7 まとめ
第3章 AIの理想的な振る舞い
- 3.1 モデルスペックの構成
- 3.2 安全性ルール:制約の範囲を超えない
- 3.3 他組織のルール
- 3.4 まとめ
第4章 安全性評価技術:ベンチマーク
- 4.1 LLMを評価する安全性ベンチマーク
- 4.2 MLLMを評価する安全性ベンチマーク
- 4.3 まとめ
第5章 安全性評価技術:レッドチーミング
- 5.1 レッドチーミングの概要
- 5.2 攻撃手法の体系化
- 5.3 レッドチーミング実践
- 5.4 まとめ
第6章 安全性向上技術:モデルレベル
- 6.1 事前学習における安全性向上技術
- 6.2 SFTにおける安全性向上技術
- 6.3 RLHFにおける安全性向上技術
- 6.4 合成データアプローチ
- 6.5 推論フェーズにおける安全性制御
- 6.6 まとめ
第7章 安全性向上技術:システムレベル
- 7.1 ガードレール
- 7.2 ガードレールコンポーネント
- 7.3 ガードレールツールキット
- 7.4 まとめ
第8章 AI安全性の未来
- 8.1 対話から実行へ:エージェントAIのリスク
- 8.2 デジタルから物理世界へ:ロボティクスAIのリスク
- 8.3 人知を超えた知性へ:AGI/ASIのリスク
- 8.4 まとめ