生成AIやロボティクスの分野において、強化学習はもはや欠かすことのできない基礎理論と言えるでしょう。2025年、強化学習の先駆者であるRichard S. SuttonとAndrew G. Bartoの両氏に、「計算機科学界のノーベル賞」とも称されるACM A・M・チューリング賞(ACM A.M. Turing Award)が授与されました。1980年代初頭に心理学の動物学習理論に着想を得て強化学習の枠組みを両氏が体系的に構築しはじめて以来、今日まで広く使われている数々のアルゴリズムを生み出してきた功績は、"developing the conceptual and algorithmic foundations of reinforcement learning"(強化学習の概念的・アルゴリズム的な基礎の確立)と評されています。
先述の通り、強化学習の基礎の確立を称え、Barto氏・Sutton氏にACM A・M・チューリング賞が授与されました。一方、その前年の2024年には、人工ニューラルネットワークによる機械学習の基礎を築いたJohn Joseph Hopfield氏、Geoffrey Hinton氏にノーベル物理学賞が授与されました。深層強化学習とは、後にそれぞれ人類の叡智として称えられたこの2つの技術の融合によって生まれた手法と言えます。拙著がテーマとして掲げる「数理思考の鍛錬」として、これほどモチベーションが高まるテーマは稀有ではないでしょうか。
論文は冒頭から、深層強化学習の根幹にある難しさを端的に次の通り述べています──"Reinforcement learning is known to be unstable or even to diverge when a nonlinear function approximator such as a neural network is used to represent the action-value (also known as Q) function"(ニューラルネットワークのような非線形関数近似器を用いて行動価値(Q)関数を表現すると、強化学習は不安定になるか、あるいは発散することすら知られている)。Q学習は、一定の条件下で最適行動価値関数への収束が示されているものの、ニューラルネットワークと組み合わせると学習が不安定になるという本質的な矛盾がある──この一文が、考察全体の出発点だと言えます。
この問題点に対して、論文では"We address these instabilities with a novel variant of Q-learning, which uses two key ideas"(我々はQ学習の新しい変種によってこれらの不安定性に対処する。それは2つの主要なアイデアを使う)として、具体的な解法を提示します。
第一の解法が経験再生(Experience Replay)です。"First, we used a biologically inspired mechanism termed experience replay that randomizes over the data, thereby removing correlations in the observation sequence and smoothing over changes in the data distribution"(第一に、経験再生と呼ばれる、生物学に着想を得た仕組みを用いた。これはデータをランダム化することで、観測系列中の相関を除去し、データ分布の変化を滑らかにする)。
第二の解法がターゲットネットワークです。"Second, we used an iterative update that adjusts the action-values (Q) towards target values that are only periodically updated, thereby reducing correlations with the target"(第二に、定期的にのみ更新されるターゲット値に向けて行動価値Qを調整する反復的な更新を用いた。これによりターゲットとの相関を低減する)。
この論文が数理思考の題材として魅力的なのは、「前提を疑う」という知的態度が技術的な革新に直結している点にあります。著者らは論文の冒頭で、従来の画像認識AIの主流だった畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を例に挙げ、端的に次の通り主張しています──"We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks"(我々は、CNNへのこの依存は不要であり、画像パッチの系列に直接適用された純粋なTransformerが画像分類タスクで非常に良い性能を発揮できることを示す)。
このコードから読み取れるのは、N個の(画像, テキスト)ペアからなるバッチにおいて、正しいペアの類似度を最大化し、誤っているペアの類似度を最小化するという目的関数を設計しようとしていることです。論文では"We optimize a symmetric cross entropy loss over these similarity scores"(我々はこれらの類似度スコアに対して対称的な交差エントロピー損失を最適化する)と述べられています。