『独学で鍛える数理思考2』：参考文献の紹介

2026年2月、技術評論社より『独学で鍛える数理思考2〜次世代AIを生み出す数学の基礎』を出版しました。前作『独学で鍛える数理思考〜先端AI技術を支える数学の基礎』に続く本書では、強化学習・深層強化学習・物体認識・マルチモーダルAI・自律移動・ロボット制御といった、AIとロボティクスの最先端を支えるテーマを取り上げています。プログラミングには踏み込まず、数理モデルの導出とその背後にある思考力の鍛錬に集中した一冊です。高校生から社会人まで、本格的な数理思考を独学で身につけたい方を主な読者として想定しています。

本書を手にとっていただいた方の中には、「⁠なぜこのテーマが取り上げられているのか」「⁠どんな文献を読めばもっと深く学べるか」と気になっている方もいるかもしれません。

本記事では、全6章のうち第1章から第4章を中心に執筆において特に参考にした書籍・論文を紹介します。

第1章「強化学習を実現する数理」

生成AIやロボティクスの分野において、強化学習はもはや欠かすことのできない基礎理論と言えるでしょう。2025年、強化学習の先駆者であるRichard S. SuttonとAndrew G. Bartoの両氏に、「⁠計算機科学界のノーベル賞」とも称されるACM A・M・チューリング賞(ACM A.M. Turing Award)が授与されました。1980年代初頭に心理学の動物学習理論に着想を得て強化学習の枠組みを両氏が体系的に構築しはじめて以来、今日まで広く使われている数々のアルゴリズムを生み出してきた功績は、"developing the conceptual and algorithmic foundations of reinforcement learning"（強化学習の概念的・アルゴリズム的な基礎の確立）と評されています。

第1章で特に参考にした文献は、その両氏が執筆したReinforcement Learning: An Introduction (Second Edition)です。初版の刊行は1998年であるにもかかわらず累計引用数は75,000回を超えるといわれており、現在も最前線の研究者・実務家が手元に置く「強化学習の原典」と言えるでしょう。

この書籍で特筆すべき点は、数学的な厳密さと設計思想の説明が分かちがたく結びついている点です。それぞれのChapterでは強化学習の基礎的な数理モデルについて、数理モデルの考え方やアルゴリズム、検証の様子などが数式やグラフを豊富に用いて解説されています。『⁠独学で鍛える数理思考2〜次世代AIを生み出す数学の基礎』の第1章では、このReinforcement Learning: An Introduction (Second Edition)のChapter1からChapter5までを参考としつつ、さらに初学者向けの数式展開や考え方の整理をしています。

英語の文献なのでやや敷居は高いかもしれませんが、文章及び解説は極めて明快でわかりやすく、読み進めればきっと多くの専門家に読まれ続けている理由がわかるはずです。拙著を読み進めた後に、さらなるステップアップとして強く推奨する一冊です。

第2章「深層強化学習を実現する数理」

先述の通り、強化学習の基礎の確立を称え、Barto氏・Sutton氏にACM A・M・チューリング賞が授与されました。一方、その前年の2024年には、人工ニューラルネットワークによる機械学習の基礎を築いたJohn Joseph Hopfield氏、Geoffrey Hinton氏にノーベル物理学賞が授与されました。深層強化学習とは、後にそれぞれ人類の叡智として称えられたこの2つの技術の融合によって生まれた手法と言えます。拙著がテーマとして掲げる「数理思考の鍛錬」として、これほどモチベーションが高まるテーマは稀有ではないでしょうか。

第2章で主に参考としたのは、DeepMindが2015年にNature誌に発表したHuman-level control through deep reinforcement learningです。Atari 2600の49ゲームにおいてプロのゲームテスターに匹敵する性能を達成したことを報告したこの論文は、深層強化学習の実用的な可能性を世界に示した記念碑的な論文と言えます。

この第2章では、Q学習と深層強化学習モデルの1つであるDQN（Deep Q-Network）を扱い、Q学習を解説した後にDQNを解説する流れを採用しています。その理由は、Q学習の課題を数理的に考察した後、その課題を克服するためにDQNを適用するという流れを示すことで、読者が「なぜこの手法が必要なのか」を理解しやすくなると考えたからです。

「数理思考」の観点から見たとき、この論文Human-level control through deep reinforcement learningが極めて学びの深い理由は「問題の構造を把握することで、適切な解法が導かれる」という過程が鮮明に描かれている点です。

論文は冒頭から、深層強化学習の根幹にある難しさを端的に次の通り述べています─⁠─"Reinforcement learning is known to be unstable or even to diverge when a nonlinear function approximator such as a neural network is used to represent the action-value (also known as Q) function"（ニューラルネットワークのような非線形関数近似器を用いて行動価値（Q）関数を表現すると、強化学習は不安定になるか、あるいは発散することすら知られている⁠）⁠。Q学習は、一定の条件下で最適行動価値関数への収束が示されているものの、ニューラルネットワークと組み合わせると学習が不安定になるという本質的な矛盾がある─⁠─この一文が、考察全体の出発点だと言えます。

この問題点に対して、論文では"We address these instabilities with a novel variant of Q-learning, which uses two key ideas"（我々はQ学習の新しい変種によってこれらの不安定性に対処する。それは2つの主要なアイデアを使う）として、具体的な解法を提示します。

第一の解法が経験再生（Experience Replay）です。"First, we used a biologically inspired mechanism termed experience replay that randomizes over the data, thereby removing correlations in the observation sequence and smoothing over changes in the data distribution"（第一に、経験再生と呼ばれる、生物学に着想を得た仕組みを用いた。これはデータをランダム化することで、観測系列中の相関を除去し、データ分布の変化を滑らかにする⁠）⁠。

第二の解法がターゲットネットワークです。"Second, we used an iterative update that adjusts the action-values (Q) towards target values that are only periodically updated, thereby reducing correlations with the target"（第二に、定期的にのみ更新されるターゲット値に向けて行動価値Qを調整する反復的な更新を用いた。これによりターゲットとの相関を低減する⁠）⁠。

この「原因の分解 → 各原因への対処」という論理の流れは、問題を構造的に把握する数理思考のまさに手本です。闇雲に解法を試すのではなく、問題の構造を見抜くことで適切な解法にたどり着く─⁠─この姿勢は、第2章を通じて読者に伝えたかった最も大切なメッセージの一つです。上記の内容を、本書では初学者にとってわかりやすいように再構成しています。

さらに、第2章では誤差逆伝播法（Backpropagation）の数理的な仕組みにも踏み込んでいます。DQNのパラメータ更新の仕組みを連鎖律（chain rule）を用いて導出することで、DQNを「駆動原理まで理解した」状態で読み解けるよう構成しました。「⁠仕組みを理解しているから、なぜうまくいくのかがわかる⁠」⁠─⁠─この考えに至れることが、数理思考の醍醐味だと考えています。

第3章「物体認識を実現する数理」

強化学習の数理モデルがいかに進化しようとも、ロボットが安全・効率的に空間を移動するには、目の前の物体を正しく認識できなければなりません。この問いから始まる第3章の題材として選んだのが、ViT（Vision Transformer）です。主な参考文献は、論文An Image is Worth 16x16 Words: Transformers for Image Recognition at Scaleです。この論文は、自然言語処理並びに生成AIの基礎として圧倒的な成功を収めたTransformerアーキテクチャを、画像認識にほぼそのまま適用するという大胆な提案を行いました。

この論文が数理思考の題材として魅力的なのは、「前提を疑う」という知的態度が技術的な革新に直結している点にあります。著者らは論文の冒頭で、従来の画像認識AIの主流だった畳み込みニューラルネットワーク（CNN:Convolutional Neural Network）を例に挙げ、端的に次の通り主張しています─⁠─"We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks"（我々は、CNNへのこの依存は不要であり、画像パッチの系列に直接適用された純粋なTransformerが画像分類タスクで非常に良い性能を発揮できることを示す⁠）⁠。

ViTはCNNなどの従来の画像認識モデルの前提を意図的に取り払い、画像を16×16ピクセルなどのパッチに分割してトークン列として扱い、自然言語処理で確立されたTransformerをそのまま適用するという発想の転換を実行したと言えます。

本書で特に丁寧に解説したのが、ViTの入力処理の数理です。論文では以下のように定式化されています。

ここでがパッチ埋め込み行列、が位置埋め込みです。この式が語っているのは、「⁠画像をパッチに切り分け、各パッチを平坦化したベクトルを線形射影で次元に変換し、先頭にクラストークンを付加し、列全体に学習可能な位置情報を加算する」というViT全体の入力設計そのものです。さらにTransformerエンコーダの各層は、

と定式化されています。本書ではこの各ステップを、行列計算のレベルまで省略なく導出しました。

第4章「マルチモーダルを実現する数理」

「赤い箱を持ってきて」という指示を受けたロボットは、言葉の意味を理解したうえで目の前の空間から対象を見つけなければなりません。このように複数の異なるデータ形式を組み合わせて解釈するマルチモーダルAIの代表的な技術がCLIPであり、OpenAIの研究チームが発表したLearning Transferable Visual Models From Natural Language Supervisionが第4章の主な参考文献です。

CLIPのアーキテクチャで最も注目すべきは、画像とテキストという本質的に異なる2つのデータ形式を、1つの共通ベクトル空間に写像するという設計思想です。論文が示す擬似コードには、この設計がきわめて簡潔に表現されています。

# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T)  #[n, d_t]

# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)

画像エンコーダとテキストエンコーダはそれぞれ異なる次元の特徴ベクトルを出力しますが、学習可能な線形射影 , を通じて同一次元の埋め込み空間に変換され、さらにL2正規化によって処理されます。注目すべきは、2つのモダリティ間の接続が驚くほどシンプルであることです。特に、数式が示す通り内積という最も基本的な演算で2つの世界を橋渡しするというアプローチには、「⁠意味的な近さ」をベクトルの方向の一致として幾何学的に定義するという、明確な数理的考察が垣間見えます。

では、この埋め込み空間をどのように学習するのか。その核心が対照学習（Contrastive Learning）を前提とした次の損失関数です。論文の擬似コードの続きを見てみましょう。

# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)

# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

このコードから読み取れるのは、N個の（画像, テキスト）ペアからなるバッチにおいて、正しいペアの類似度を最大化し、誤っているペアの類似度を最小化するという目的関数を設計しようとしていることです。論文では"We optimize a symmetric cross entropy loss over these similarity scores"（我々はこれらの類似度スコアに対して対称的な交差エントロピー損失を最適化する）と述べられています。

数理思考の観点から見たとき、この枠組みが持つ本質的な面白さは「意味」という概念を数値化するという発想にあります。人間にとって「リンゴの画像」と「リンゴ」という単語が同じものを指すという認識は自明ですが、それを数式として表現するには「2つのベクトルが同じ方向を向く」というコサイン類似度の幾何学的解釈が必要になります。CLIPはこの発想を損失関数として定式化し、インターネットから収集した4億もの画像・テキストペアから「画像とテキストの意味的な対応」を学習させることに成功しました。異なるモダリティの情報を統一的な空間に写像するというアプローチは、現在の生成AIが画像理解や画像生成に応用している技術の重要な基礎となっています。

まとめ

本記事では、『⁠独学で鍛える数理思考2〜次世代AIを生み出す数学の基礎』の第1章から第4章までの執筆を支えた主要文献を紹介しました。いずれの章においても、原論文や関連書籍を十分に参考とした上で、初学者にとって学びとなる数理思考の実践へと落とし込むことに尽力しました。本書を手にとってくださった方が、ここで紹介した一次文献にも触れてみようと思っていただけたなら、著者として大変嬉しく思います。