生成AIアプリケーション評価入門

著者: 松木晋祐（まつきしんすけ）　著
定価: 2,640円（本体2,400円＋税10%）
発売日: 2026.5.1
判型: A5
頁数: 184ページ
ISBN: 978-4-297-15614-5 978-4-297-15615-2

サポート情報

概要

生成AIを活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは、その性質上、次の特徴を持ちます。

確率的出力：同じ入力に対して、常に同じ出力が得られるとは限らない
複雑な挙動：入力と出力の関係が明確ではなく、ブラックボックス的な側面がある
文脈依存性：過去のやり取りや外部情報によって出力が変化する

これらの特徴から、生成AIアプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。

本書では、生成AIを活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。

こんな方にオススメ

生成AIアプリケーションの開発者、QAエンジニア、プロダクトマネージャー
生成AIアプリケーションを利用する企業、個人
これまでと異なるアプローチのテストを学びたいQAエンジニア

5.2.1　LLM01:2025プロンプトインジェクション
5.2.2　LLM02:2025 機密情報の漏えい
5.2.3　LLM02:2025サプライチェーン
5.2.4　LLM04:2025 データ・モデルポイズニング
5.2.5　LLM05:2025 不適切な出力処理
5.2.6　LLM06:2025 過度な自律性
5.2.7　LLM07:2025システムプロンプトの漏えい
5.2.8　LLM08:2025ベクトル／埋め込みの脆弱性
5.2.9　LLM09:2025 誤情報
Column　航空会社のチャットボットが誤った案内をし、顧客が訴訟にいたったケース
5.2.10　LLM10:2025 無制限なリソース消費

5.3　生成AI・LLMのセキュリティテスト・レッドチーミング

5.3.1　レッドチーミングとは
5.3.2　LLMレッドチーミングフレームワーク「DeepTeam」
5.3.3　仮想のチャットアプリケーションのシステムプロンプトを奪取する

5.4　まとめ

第6章　AIエージェントの評価

6.1　AI エージェントとは

6.1.1　定義と特徴
6.1.2　代表的な利用例

6.2　AIエージェントのパターンと構造・評価観点の例

6.2.1　シングルエージェントパターン
6.2.2　マルチエージェントパターン

6.3　AIエージェントの評価メトリクス

6.3.1　ツール：DeepEvalの評価メトリクス
6.3.2　プラットフォーム：Azure AI Serviceブログによる評価メトリクス
6.3.3　サーベイ：Survey on Evaluation of LLM-based Agentsの評価メトリクス
6.3.4　各視点における評価メトリクスの焦点

6.4　まとめ

第7章　生成AIアプリケーションのテスト・評価のその他のトピック

7.1　プロパティベースドテスト

7.2　画像分析型の生成AI アプリケーションの評価

7.2.1　画像分析型の生成AI アプリケーションの身近な例
7.2.2　I2T 生成AI アプリケーションのテスト観点基盤モデル
7.2.3　画像分析のメトリクス
7.2.4　セキュリティのメトリクス
7.2.5　IT2 型についてのまとめ

7.3　AI 駆動開発のテスト・QA

7.3.1　AI 駆動開発とは
7.3.2　AI 駆動開発におけるリスク
7.3.3　AI 駆動開発におけるリスクに対応するためのテスト・QA

プロフィール

松木晋祐（まつきしんすけ）

株式会社ベリサーブ執行役員研究開発管掌

AIQVE ONE株式会社取締役CTO

独立系ソフトウェアベンダにて、テストオペレータから品質部門統括まで、ソフトウェアテストと品質保証にまつわるさまざまなロールを経験後、株式会社ベリサーブ／AIQVE ONE株式会社へ。ソフトウェア開発、QA／テストにまつわる先進技術推進、応用技術開発を担う部門を創設、運用。生成AIが組み込まれたシステムの品質保証技術、AI駆動開発に向けたプロセスQA技術の研究などを推進。また、AIQVE ONE株式会社ではゲーム分野へのAI4QA技術／製品開発などを企画、製品化を実現。AIとQAの掛け合わせで国内のさまざまな企業産業に向けた技術開発、提案を行なっている。

社外活動に、東京電機大学CySec講師、テスト自動化研究会ファウンダー、ISO/IEC JTC1/SC7/WG26、JSTQB Technical Committee、W3C CSSWG コントリビューターなど。

著書（共著／共訳）に『Androidアプリテスト技法』（秀和システム,2013）、『システムテスト自動化標準ガイド』（翔泳社,2014）など。

生成AIアプリケーション評価入門

サポート情報

概要

こんな方にオススメ

目次

第1章 生成AIアプリケーションの評価の概要

1.1 生成AI アプリケーションの特徴と評価の必要性

1.2 生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル

1.3 開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ

1.4 まとめ

第2章 生成AIアプリケーションの評価基盤モデルと評価アプローチ

2.1 生成AI アプリケーションの品質モデル

2.2 機械学習利用システムの外部品質特性レベル

2.3 品質モデルとテストタイプを組み合わせてテスト計画を構成することの是非

2.4 生成AI アプリケーションの基盤評価モデル

2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計

2.6 生成AI アプリケーション開発における開発チームとQA チームの役割分担の例

2.7 まとめ

第3章 基本的な評価メトリクス

3.1 混同行列にもとづくメトリクス

3.2 検索・RAG 向けの基本的なメトリクス

3.3 生成テキストの内容一致の基本的なメトリクス

3.4 各メトリクスを実際に運用する

3.5 まとめ

第4章 評価メトリクスのツールによる評価の実際

4.1 LLMを評価者として利用する「LLM-as-a-Judge」

4.2 メトリクスの評価環境の構築

4.3 評価の実行

4.4 pytestと統合した利用

4.5 まとめ

第5章 生成AIアプリケーションのセキュリティ評価

5.1 OWASP LLMとは

5.2 OWASP LLM2025

5.3 生成AI・LLMのセキュリティテスト・レッドチーミング

5.4 まとめ

第6章 AIエージェントの評価

6.1 AI エージェントとは

6.2 AIエージェントのパターンと構造・評価観点の例

6.3 AIエージェントの評価メトリクス

6.4 まとめ

第7章 生成AIアプリケーションのテスト・評価のその他のトピック

7.1 プロパティベースドテスト

7.2 画像分析型の生成AI アプリケーションの評価

7.3 AI 駆動開発のテスト・QA

プロフィール

松木晋祐（まつきしんすけ）

第1章　生成AIアプリケーションの評価の概要

1.1　生成AI アプリケーションの特徴と評価の必要性

1.2　生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル

1.3　開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ

1.4　まとめ

第2章　生成AIアプリケーションの評価基盤モデルと評価アプローチ

2.1　生成AI アプリケーションの品質モデル

2.2　機械学習利用システムの外部品質特性レベル

2.3　品質モデルとテストタイプを組み合わせてテスト計画を構成することの是非

2.4　生成AI アプリケーションの基盤評価モデル

2.5　評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計

2.6　生成AI アプリケーション開発における開発チームとQA チームの役割分担の例

2.7　まとめ

第3章　基本的な評価メトリクス

3.1　混同行列にもとづくメトリクス

3.2　検索・RAG 向けの基本的なメトリクス

3.3　生成テキストの内容一致の基本的なメトリクス

3.4　各メトリクスを実際に運用する

3.5　まとめ

第4章　評価メトリクスのツールによる評価の実際

4.1　LLMを評価者として利用する「LLM-as-a-Judge」

4.2　メトリクスの評価環境の構築

4.3　評価の実行

4.4　pytestと統合した利用

4.5　まとめ

第5章　生成AIアプリケーションのセキュリティ評価

5.1　OWASP LLMとは

5.2　OWASP LLM2025