生成AIアプリケーション評価入門

「生成AIアプリケーション評価入門」のカバー画像
著者
松木晋祐まつきしんすけ 著
定価
2,640円(本体2,400円+税10%)
発売日
2026.5.1
判型
A5
頁数
184ページ
ISBN
978-4-297-15614-5

概要

生成AIを活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは、その性質上、次の特徴を持ちます。

  • 確率的出力:同じ入力に対して、常に同じ出力が得られるとは限らない
  • 複雑な挙動:入力と出力の関係が明確ではなく、ブラックボックス的な側面がある
  • 文脈依存性:過去のやり取りや外部情報によって出力が変化する

これらの特徴から、生成AIアプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。

本書では、生成AIを活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。

こんな方にオススメ

  • 生成AIアプリケーションの開発者、QAエンジニア、プロダクトマネージャー
  • 生成AIアプリケーションを利用する企業、個人
  • これまでと異なるアプローチのテストを学びたいQAエンジニア

目次

第1章 生成AIアプリケーションの評価の概要

1.1 生成AI アプリケーションの特徴と評価の必要性

  • 1.1.1 確率的出力とその影響
  • 1.1.2 ブラックボックス的な内部処理
  • 1.1.3 文脈依存性とダイナミックな挙動
  • 1.1.4 評価の必要性とその背景
  • 1.1.5 テストと評価のちがい

1.2 生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル

  • 1.2.1 生成AI アプリケーションの基本的な構造モデル
  • 1.2.2 生成AI アプリケーションの評価プロセスモデル
  • 1.2.3 フライホイールの形成とQAエンジニアの役割

1.3 開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ

  • 1.3.1 要件定義と設計フェーズ
  • 1.3.2 実装および単体テストフェーズ
  • 1.3.3 統合テストとシステムテスト.
  • 1.3.4 デプロイメントと運用フェーズ

1.4 まとめ

第2章 生成AIアプリケーションの評価基盤モデルと評価アプローチ

2.1 生成AI アプリケーションの品質モデル

  • 2.1.1 AIシステムの製品品質モデルISO/IEC 25059:2023
  • 2.1.2 ISO/IEC 25059:2023 Quality in use 社会的・倫理的リスクの低減性

2.2 機械学習利用システムの外部品質特性レベル

  • 2.2.1 リスク回避性
  • 2.2.2 AI パフォーマンス
  • 2.2.3 公平性
  • 2.2.4 プライバシー
  • 2.2.5 AI セキュリティ

2.3 品質モデルとテストタイプを組み合わせてテスト計画を構成することの是非

  • 2.3.1 テストの目的と手法が不明確になる
  • 2.3.2 すべての特性をテスト計画に織り込んでしまう
  • 2.3.3 テストの重複や抜け漏れが発生する可能性がある

2.4 生成AI アプリケーションの基盤評価モデル

  • 2.4.1 評価観点基盤モデルとは
  • 2.4.2 評価観点基盤モデルの解説

2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計

  • 2.5.1 評価観点の取捨選択
  • 2.5.2 タスク固有の指標に対する観点の創出
  • 2.5.3 製品独自の評価観点モデル
  • 2.5.4 評価メトリクスの設計

2.6 生成AI アプリケーション開発における開発チームとQA チームの役割分担の例

  • 2.6.1 基盤アプリケーション層
  • 2.6.2 基盤モデル層
  • 2.6.3 チューニング層から出力調整層まで
  • 2.6.4 生成AI アプリケーション層

2.7 まとめ

第3章 基本的な評価メトリクス

3.1 混同行列にもとづくメトリクス

  • 3.1.1 混同行列とは
  • 3.1.2 具体例―メールのスパム判定

3.2 検索・RAG 向けの基本的なメトリクス

  • 3.2.1 Recall@k/Hit@k.—「上位k 件に正解が入っているか」を測る
  • 3.2.2 Precision@k.—「上位k 件の純度」を測る
  • 3.2.3 F1@k—Recallと適合率を単一スコアに集約

3.3 生成テキストの内容一致の基本的なメトリクス

  • 3.3.1 EM—「出力の完全一致率」を測る
  • 3.3.2 BLEU・ROUGE-N/L —「n-gram 重複で内容類似度」を測る
  • 3.3.3 WER・CER—「編集距離でズレ量」を測る

3.4 各メトリクスを実際に運用する

3.5 まとめ

第4章 評価メトリクスのツールによる評価の実際

4.1 LLMを評価者として利用する「LLM-as-a-Judge」

4.2 メトリクスの評価環境の構築

  • 4.2.1 Google Colab上にLlama2環境を構築する
  • 4.2.2 DeepEvalを利用する準備をする

4.3 評価の実行

  • 4.3.1 出力テキストの関連性の評価
  • 4.3.2 G-Evalを利用した出力テキストの正確性の評価
  • 4.3.3 出力テキストのバイアスの評価
  • 4.3.4 出力テキストの毒性の評価
  • 4.3.5 出力テキストのハルシネーションの評価

4.4 pytestと統合した利用

4.5 まとめ

第5章 生成AIアプリケーションのセキュリティ評価

5.1 OWASP LLMとは

  • 5.1.1 OWASP GenAI Security ProjectとOWASP LLM Top 10
  • 5.1.2 OWASP LLM 2023/2024から2025への推移

5.2 OWASP LLM2025

  • 5.2.1 LLM01:2025プロンプトインジェクション
  • 5.2.2 LLM02:2025 機密情報の漏えい
  • 5.2.3 LLM02:2025サプライチェーン
  • 5.2.4 LLM04:2025 データ・モデルポイズニング
  • 5.2.5 LLM05:2025 不適切な出力処理
  • 5.2.6 LLM06:2025 過度な自律性
  • 5.2.7 LLM07:2025システムプロンプトの漏えい
  • 5.2.8 LLM08:2025ベクトル/埋め込みの脆弱性
  • 5.2.9 LLM09:2025 誤情報
  • Column 航空会社のチャットボットが誤った案内をし、顧客が訴訟にいたったケース
  • 5.2.10 LLM10:2025 無制限なリソース消費

5.3 生成AI・LLMのセキュリティテスト・レッドチーミング

  • 5.3.1 レッドチーミングとは
  • 5.3.2 LLMレッドチーミングフレームワーク「DeepTeam」
  • 5.3.3 仮想のチャットアプリケーションのシステムプロンプトを奪取する

5.4 まとめ

第6章 AIエージェントの評価

6.1 AI エージェントとは

  • 6.1.1 定義と特徴
  • 6.1.2 代表的な利用例

6.2 AIエージェントのパターンと構造・評価観点の例

  • 6.2.1 シングルエージェントパターン
  • 6.2.2 マルチエージェントパターン

6.3 AIエージェントの評価メトリクス

  • 6.3.1 ツール:DeepEvalの評価メトリクス
  • 6.3.2 プラットフォーム:Azure AI Serviceブログによる評価メトリクス
  • 6.3.3 サーベイ:Survey on Evaluation of LLM-based Agentsの評価メトリクス
  • 6.3.4 各視点における評価メトリクスの焦点

6.4 まとめ

第7章 生成AIアプリケーションのテスト・評価のその他のトピック

7.1 プロパティベースドテスト

7.2 画像分析型の生成AI アプリケーションの評価

  • 7.2.1 画像分析型の生成AI アプリケーションの身近な例
  • 7.2.2 I2T 生成AI アプリケーションのテスト観点基盤モデル
  • 7.2.3 画像分析のメトリクス
  • 7.2.4 セキュリティのメトリクス
  • 7.2.5 IT2 型についてのまとめ

7.3 AI 駆動開発のテスト・QA

  • 7.3.1 AI 駆動開発とは
  • 7.3.2 AI 駆動開発におけるリスク
  • 7.3.3 AI 駆動開発におけるリスクに対応するためのテスト・QA

プロフィール

松木晋祐まつきしんすけ

株式会社ベリサーブ 執行役員 研究開発管掌

AIQVE ONE株式会社 取締役CTO

独立系ソフトウェアベンダにて、テストオペレータから品質部門統括まで、ソフトウェアテストと品質保証にまつわるさまざまなロールを経験後、株式会社ベリサーブ/AIQVE ONE株式会社へ。ソフトウェア開発、QA/テストにまつわる先進技術推進、応用技術開発を担う部門を創設、運用。生成AIが組み込まれたシステムの品質保証技術、AI駆動開発に向けたプロセスQA技術の研究などを推進。また、AIQVE ONE株式会社ではゲーム分野へのAI4QA技術/製品開発などを企画、製品化を実現。AIとQAの掛け合わせで国内のさまざまな企業産業に向けた技術開発、提案を行なっている。

社外活動に、東京電機大学CySec講師、テスト自動化研究会ファウンダー、ISO/IEC JTC1/SC7/WG26、JSTQB Technical Committee、W3C CSSWG コントリビューターなど。

著書(共著/共訳)に『Androidアプリ テスト技法』(秀和システム,2013)、『システムテスト自動化 標準ガイド』(翔泳社,2014)など。