原論文から解き明かす生成AI
- 菊田遥平 著
- 定価
- 3,300円(本体3,000円+税10%)
- 発売日
- 2025.8.18
- 判型
- B5変形
- 頁数
- 304ページ
- ISBN
- 978-4-297-15078-5 978-4-297-15079-2
サポート情報
概要
生成AI技術は目覚ましい進歩を続けています。そのため、表面的なトレンドを追うだけでは、そのしくみを理解することが困難になっています。こうした状況において、本書は生成AIを支える理論的基礎について原論文レベルまで深く踏み込んで解説し、読者が技術の核心部分を理解できるよう導く一冊です。本書の主な特徴は、以下の3つにあります。
1つ目の特徴は、Transformerから推論時のスケーリング則に至るまでの「生成AIの重要な理論」について、原論文の内容を参照しながら数式と図版を用いて詳細に解説しています。2つ目の特徴は、英語・日本語を問わず既存の文献ではあまり扱われていない分布仮説の実験的根拠や拡散モデルの数学的保証など、「生成AIを理解する上で、重要であるものの他の書籍などで十分に扱われていない理論」も丁寧に掘り下げています。3つ目の特徴として、「演習問題とGitHubサポートページを連携させた読者参加型の学習環境」を提供し、より深い学びをサポートしています。
本書を通じて読者は、生成AIに関わる重要な理論について深い理解を得ることができるだけでなく、原論文レベルの内容を読み解く力を身につけることができます。これにより、新たなモデルや技術動向を独力で理解し、急速に変化する技術トレンドへの自律的なキャッチアップ能力を獲得することができるでしょう。表面的な知識ではなく、生成AI技術の本質的な理解を求める全ての方にとって、必携の一冊です。
こんな方にオススメ
- 生成 AI 分野の理論の基礎をキャッチアップしたいと考えている方々
- 機械学習を学んでいる学部生や院生の方々
- 機械学習を業務で活用しているエンジニア
- 異分野の研究者の方々
目次
第1章 本書の読み方と論文を読み解く技術
1.1 本書の読み方
1.2 論文を読み解く技術
- 1.2.1 論文を読む環境の構築
- 1.2.1.1 論文を入手する
- 1.2.1.2 論文を電子媒体で読む
- 1.2.1.3 論文は人間が書いたものであることを認識する
- 1.2.2 自分の力で論文を読み解くための技術
- 1.2.2.1 議論が成立する条件を確認する
- 1.2.2.2 具体例を構成する
- 1.2.2.3 実装を読み解いて理解を深める
- 1.2.2.4 重要となる参考文献は踏み込んで調べる
- 1.2.2.5 アウトプットすることで理解を深める
- 1.2.3 自分以外の力も借りて論文を読み解くための技術
- 1.2.3.1 少人数で深く議論する
- 1.2.3.2 論文の著者に直接質問する
- 1.2.3.3 ウェブ上で議論する
- 1.2.3.4 生成AIを使う
1.3 本書における数式記法
第2章 入力データの特徴量化
2.1 埋め込みと分布仮説
2.2 サブワードの必要性とトークン化
2.3 バイト対符号化 (Byte Pair Encoding)
2.4 サブワードユニグラム言語モデル
2.5 SentencePiece
2.6 文字単位よりも細かいサブワード分割
2.7 トークナイザーは本当に必要なのか
第3章 生成AIモデルの大前提となるTransformer
3.1 Transformer の全体像
3.2 位置埋め込み (Positional Encoding)
3.3 マルチヘッド注意
- 3.3.1 注意機構 (Attention Mechanism)
- 3.3.2 クエリー・キー・バリューを用いた定式化
- 3.3.3 スケール化内積注意 (Scaled Dot-Product Attention)
- 3.3.4 マルチヘッド注意(Multi-Head Attention)
- 3.3.5 自己注意は何が優れているのか
3.4 エンコーダーとデコーダーの共通要素
3.5 デコーダーの出力部分
3.6 モデルの学習と実験結果
第4章 Generative Pre-trained Transformerとテキスト生成
4.1 複数タスクモデルとしての GPT-1, 2
- 4.1.1 GPT-1
- 4.1.2 GPT-2
4.2 生成モデルとしての GPT-3, 4
- 4.2.1 GPT-3
- 4.2.2 GPT-4
4.3 テキスト生成モデルの性能を高めるための要素
- 4.3.1 学習の新たなパラダイムとなる文脈内学習
- 4.3.2 Reinforcement Learning from Human Feedback
第5章 拡散モデルと画像生成
5.1 画像分類モデルとしての Vision Transformer
5.2 拡散モデル
- 5.2.1 拡散過程と逆拡散過程が同じ関数形で表現できる理由
- 5.2.2 Denoising Diffusion Probabilistic Models (DDPM)
5.3 画像生成モデル Diffusion Transformer
第6章 テキストと画像の融合
6.1 テキストと画像の特徴量を関係づけるCLIP
6.2 text-to-imageモデル unCLIP
6.3 text+image-to-imageモデル Imagic
6.4 text+image-to-text の実現方法
第7章 生成 AI モデルのスケーリング則
7.1 生成AIモデルの事前学習スケーリング則
- 7.1.1 テキスト生成モデルの事前学習のスケーリング則
- 7.1.2 様々なモデルや領域における事前学習のスケーリング則
- 7.1.3 テキスト生成モデルの学習データ量の限界
7.2 テキスト生成の推論スケーリング則
- 7.2.1 DeepSeek-V3
- 7.2.2 思考の連鎖 (Chain-of-Thought)
- 7.2.3 DeepSeek-R1
第8章 生成 AI モデルの評価
8.1 人間による相対評価
8.2 高い専門性を有するタスクでの評価
Appendix A.1 参考文献の取り扱い
Appendix A.2 Landauのビッグオー記法と計算量
プロフィール
菊田遥平
1986年生まれ。2014年総合研究大学院大学高エネルギー加速器科学研究科素粒子原子核専攻修了。博士(理学)。機械学習と生成AIの専門家として、複数の企業で研究開発・プロダクト開発・開発組織のリードなどを経験。X:@yohei_kikuta
著者の一言
本書は、生成AIの土台となっている重要な理論やモデルを原論文を読み解いて理解するという、他にあまり例を見ない内容となっています。原典に踏み込み、真に驚くべき生成AIの発展を基礎から理解して楽しんでください。