仕組みから学ぶ生成AI入門 ―⁠―基礎から応用まで徹底理解

「仕組みから学ぶ生成AI入門」のカバー画像
著者
中井悦司なかいえつじ 著
定価
2,860円(本体2,600円+税10%)
発売日
2025.6.27
判型
A5
頁数
304ページ
ISBN
978-4-297-14972-7 978-4-297-14973-4

概要

近年続々と発表される実用レベルの生成モデル論文を深く理解するため、本書は変分オートエンコーダ(VAE)、LSTMといった基礎モデルから、VQ-VAE、拡散モデル、Transformerといった最先端モデルの先駆けとなったモデルの仕組みを、数学的な詳細に偏らず、シンプルなサンプルコードと演習を通して解説します。Kerasを用いた実装を通して、各モデルの主要機能と生成モデルとしての動作原理を、実際に手を動かしながら理解することを目的としています。

本書の読み方

本書は、第1章から順番に読み進めることで、基礎的なモデルから、より高度なモデルへと段階的に理解を深めていきます。各章で提供するサンプルコードは、ディープラーニングに対応した機械学習ライブラリーであるKerasを用いて実装しています。Kerasは、ディープラーニングモデルを構成するパーツが事前にモジュールとして用意されており、これらのモジュールをブロックのように組み合わせてモデルを構成します。本文の解説を参考にして、サンプルコードの具体的な内容を理解しながら読み進めることで、それぞれのモデルの仕組みと動作原理がより明確に理解できるでしょう。

本書のサンプルコードは、次のGitHubリポジトリで公開しています。

「仕組みから理解する生成AIモデル入門:サンプルコード集」
https://github.com/enakai00/colab_GenAI_lecture

こんな方にオススメ

  • 機械学習の基礎から生成AIを学びたい方
  • 生成AIのしくみをしっかりと基本から学びたい方

目次

第1章 ディープラーニングの基礎知識

  • 第1章のはじめに
  • 1.1 環境準備
    • 1.1.1 Colaboratoryの使い方
    • 1.1.2 サンプルコードのダウンロード
    • 1.1.3 Colaboratoryのランタイムについて
  • 1.2 分類モデルの仕組みと実装
    • 1.2.1 線形多項分類器の仕組み
    • 1.2.2 多層ニューラルネットワークへの拡張
  • 1.3 畳み込みニューラルネットワークによる画像分類
    • 1.3.1 畳み込みフィルターによる特徴量の抽出
    • 1.3.2 畳み込みフィルターの多段構成

第2章 変分オートエンコーダによる画像生成

  • 第2章のはじめに
  • 2.1 変分オートエンコーダの仕組み
    • 2.1.1 オートエンコーダと潜在空間
    • 2.1.2 転置畳み込みフィルターによる画像生成
    • 2.1.3 変分オートエンコーダへの拡張
  • 2.2 ラベルデータを活用した拡張
    • 2.2.1 マルチタスク学習
    • 2.2.2 条件付き変分オートエンコーダ

第3章 LSTMによる自然言語処理

  • 第3章のはじめに
  • 3.1 LSTMによるテキスト分類
    • 3.1.1 RNNの考え方とLSTMの仕組み
    • 3.1.2 LSTMの利用方法
    • 3.1.3 双方向LSTMによるテキスト分類モデル
  • 3.2 LSTMによるテキスト生成
    • 3.2.1 LSTMによる単語予測モデル
    • 3.2.2 LSTMによるテキスト生成

第4章 トランスフォーマーによる自然言語処理

  • 第4章のはじめに
  • 4.1 トランスフォーマーによる自然言語処理
    • 4.1.1 トランスフォーマーの仕組み
    • 4.1.2 トランスフォーマーとRNNの比較
  • 4.2 トランスフォーマーによるテキスト分類
    • 4.2.1 トランスフォーマーの構成要素の実装
    • 4.2.2 トランスフォーマーによるテキスト分類モデル
  • 4.3 トランスフォーマーによるテキスト生成
    • 4.3.1 トランスフォーマーによる単語予測モデル
    • 4.3.2 トランスフォーマーによるテキスト生成

第5章 拡散モデルの仕組み

  • 第5章のはじめに
  • 5.1 DCGANの仕組み
    • 5.1.1 DCGANの学習プロセス概要
    • 5.1.2 DCGANによる画像生成モデル
  • 5.2 拡散モデルの仕組み
    • 5.2.1 データ分布の変換機能
    • 5.2.2 拡散モデルの考え方
    • 5.2.3 拡散モデルの実装
  • 5.3 VQ-VAEの仕組み
    • 5.3.1 VQ-VAEの潜在空間
    • 5.3.2 VQ-VAEの学習例

第6章 マルチモーダルモデルの実現

  • 第6章のはじめに
  • 6.1 自然言語テキストによる画像生成
    • 6.1.1 テキストエンコーダによる意味の抽出
    • 6.1.2 大規模言語モデルによる品質向上
  • 6.2 マルチモーダルモデルの実現

プロフィール

中井悦司なかいえつじ

1971年4月大阪生まれ。ノーベル物理学賞を本気で夢見て、理論物理学の研究に没頭する学生時代、大学受験教育に情熱を傾ける予備校講師の頃、そして、華麗なる(?)転身を果たして、外資系ベンダーでLinuxエンジニアを生業にするに至るまで、妙な縁が続いて、常にUnix/Linuxサーバーと人生を共にする。その後、Linuxディストリビューターのエバンジェリストを経て、現在は、米系IT企業のAI Solutions Architectとして活動。

主な著書は、『[改訂新版]ITエンジニアのための機械学習理論入門』『Google Cloudで学ぶ生成AIアプリ開発入門――フロントエンドからバックエンドまでフルスタック開発を実践ハンズオン』(いずれも技術評論社)、『TensorFlowとKerasで動かしながら学ぶディープラーニングの仕組み』『JAX/Flaxで学ぶディープラーニングの仕組み』(いずれもマイナビ出版)など。