高校数学から最先端AIまでを「横断的」に学ぶ理由 ——バラバラでは見えない景色

はじめに

前回の記事「高校数学から最先端AIまで—⁠—『⁠独学で鍛える数理思考』全12章の全体像」では、『⁠独学で鍛える数理思考』と『独学で鍛える数理思考2』の2冊12章を、1枚の対応表として紹介しました。1冊目で取り扱ったテーマは、情報検索、商品推薦、画像分類、文章生成、音声解析、衛星測位。2冊目では、強化学習、深層強化学習、物体認識、マルチモーダル、自律移動、物体操作。こうして並べると、本シリーズがかなり広い範囲の技術を扱っていることがわかります。

ただ、前回の記事で伝えたかったことは、単に「たくさんのテーマを扱っています」ということではありません。むしろ伝えたいことは、これらのテーマはバラバラに見えても、実は共通した数理的枠組みによってつながっている、ということです。

書店の専門書のコーナーでは、検索エンジン、推薦システム、深層学習、自然言語処理、ロボット工学、強化学習などの書籍は別々の棚に置かれています。大学の講義では別々の科目として、研究室では別々の研究分野として扱われることが多いです。もちろん、それぞれの専門性は深く、簡単に一括りにできるものではありません。しかし、初学者が最先端AIやロボティクスの数理を独学で学ぼうとするとき、これらの分野の違いに圧倒されて、学ぶべきものが無限に増えていくように感じられるのではないでしょうか。

そこで本シリーズでは、2冊12章を貫く「共通項」を意識して構成しました。2冊目の「はじめに」では、その狙いを「最先端技術を支えている数理の共通項を横断的に学ぶこと」だと説明しています。今回は、その「共通項」を、添付図に沿って読み解いていきましょう。

今回の主役は、図の中央に置いた5つの箱です。すなわち、ベクトルによる類似度計算、行列による大規模データ処理、微分による学習・最適化、確率によるモデル化・推定、物理学に基づく考察。これら5つを軸にすると、12章は単なるテーマの寄せ集めではなく、ひとつの見通しを持った学習カリキュラムとして設計されていることが理解できるはずです。

図の読み方

まずは、下の図をご覧ください。左側には1冊目『独学で鍛える数理思考』の6章を、右側には2冊目『独学で鍛える数理思考2』の6章を配置しています。各章の枠内には、その章で扱う数理が示されています。数列、対数、三角関数、ベクトル、行列、幾何学、微分、積分、確率、物理学です。

シリーズ2冊、全12章の構成と5つの共通項（@cross-X Inc.）（図を拡大する）

濃く色が付いているタイルは、その章で中心的に扱う数理です。点線で囲まれているタイルは、補助的に登場するものです。たとえば1冊目第2章のレコメンドでは、ベクトル、行列、微分が濃く示されています。これは、評価値をベクトルや行列として扱い、さらに勾配降下法によって予測モデルを更新していくからです。

一方、図の中央には5つの共通項を置きました。左右の各章から中央へ伸びる線は、それぞれの章がどの共通項に接続しているかを示しています。この線を眺めると、たとえば「ベクトルによる類似度計算」は情報検索、レコメンド、文章生成、物体認識、マルチモーダルなどの中核を担い、「⁠微分による学習・最適化」はレコメンド、画像分類、深層強化学習、マルチモーダルといった章を支えていることがわかります。

この図で見ていただきたいのは、章の数でも、数学的枠組みの数でもありません。同じ数学的枠組みが、異なる技術の中で姿を変えながら何度も現れるという構造です。数理を横断的に学ぶことの意義の1つは、単に広い範囲を浅く取り上げることではなく、別々に見える技術の奥に、どのような共通した数理的枠組みが流れているのかを見抜く力を養うことです。

以下では、中央の5つの共通項を順に見ていきます。

共通項1⁠：ベクトルによる類似度計算

最初の共通項は、ベクトルによる類似度計算です。

ベクトルとは、簡単に言えば複数の数値を順番に並べたものです。数学の授業では「向きと大きさを持つ量」として学ぶことが多いですが、AIの文脈では、文章、画像、ユーザーの好み、商品の特徴、単語の意味などを、複数の数値の並びとして表すためにしばしば使われます。対象をベクトルとして表せるようになると、例えば「2つの対象がどれくらい似ているか」といった類似度を計算によって数値で測ることが可能になります。

1冊目第1章「情報検索を実現する数理」では、Webページに含まれる単語を数値化し、TF-IDFモデルを用いて文書の特徴を表します。TF-IDFとは、ある単語が文書内にどれだけ出てくるか、そしてその単語が全体としてどれだけ珍しいかを組み合わせて、単語の重要度を測る数理モデルです。この段階で、文書は単語の重みを並べたベクトルとして扱われます。さらに、昨今注目を集めているRAG（Retrieval-Augmented Generation、検索拡張生成）では、検索対象となる文書を事前にベクトル化し、検索時にクエリもベクトル化して、ベクトル間の類似度に基づいて関連性の高い文書を検索する実装がよく使われます。代表的な類似度指標の一つがコサイン類似度です。これは、2つのベクトルの内積を、それぞれのベクトルの大きさで割ることで、向きがどれくらい近いかを測る方法です。ただし、RAGではキーワード検索やハイブリッド検索が用いられる場合もあります。

続く1冊目第2章「商品推薦を実現する数理」では、このコサイン類似度が再び登場します。ここでは、ユーザーの評価傾向や商品の特徴をベクトルとして扱います。平たく言えば、2人のユーザーが似たような評価をしているか、2つの商品が似た特徴を持っているか、といった類似度を角度の近さとして測ることができるのです。この類似度の定義や計算方法は、推薦結果の質に大きく影響します。さらに、協調フィルタリングと呼ばれる手法では、類似したユーザーが好む他の商品もまた「好むだろう」という発想に基づき推薦を行います。

この発想は、生成AIにもそのままつながります。1冊目第4章「文章生成を実現する数理」で扱うTransformerでは、各トークンの埋め込みからQueryベクトルとKeyベクトルを作り、それらの内積を用いて、あるトークンが他のトークンにどれだけ注目すべきかを計算します。計算式は省略しますが、内積計算の結果をスケーリングし、ソフトマックス関数を適用します。この一連の計算がAttention（アテンション）と呼ばれる仕組みの中核です。検索や推薦で出てきた「ベクトルで表し、内積で類似度を計算する」という考え方が、生成AIの中心部分でも動いているのです。

2冊目第3章「物体認識を実現する数理」で扱うVision Transformer（ViT）では、画像を小さなパッチに分け、それぞれをベクトルとして扱います。2冊目第4章「マルチモーダルを実現する数理」で扱うCLIPでは、画像の意味を表すベクトルと、テキストの意味を表すベクトルを同じ空間に並べ、両者の類似度を計算します。画像と言葉という異なる種類のデータであっても、ベクトルとして表せば同じ数理的枠組みで比較できるのです。

つまり、ベクトルによる類似度計算は、情報検索からレコメンド、Transformer、ViT、CLIPなど、多岐にわたる技術で応用されているということです。そして、この類似度計算の根幹にあるのは、高校数学で学んだベクトル、とりわけ内積の考え方なのです。対象が文書であれ、商品であれ、単語であれ、画像であれ、まず数値の並びに変換し、近さを計算する。この数理思考に習熟すれば、新しい技術に出会ったときにも、「⁠ここでは何をベクトルとして表し、何と何の近さを測っているのか」と意識的に捉え、自らの考えのもとに本質を探求できるようになるはずです。これが、横断的に学ぶことの1つの醍醐味と言えるでしょう。

共通項2⁠：行列による大規模データ処理

2つ目の共通項は、行列による大規模データ処理です。

行列とは、簡単に言えば数値を縦横に並べたものです。ベクトルが1列の数値の並びだとすれば、行列は複数のベクトルをまとめた表のようなものです。AIでは、データを大量に扱うために、行列が極めて重要な役割を担います。大量の数値をひとつずつ扱うのではなく、行列としてまとめて処理することで、大規模な計算が可能になるのです。

1冊目第2章「商品推薦を実現する数理」では、ユーザーとアイテムの評価値を行列として表します。行にはユーザー、列には商品を置き、各マスに評価値を入れると、ユーザーと商品の関係が一つの評価値行列として表現されます。そこから行列因子分解という手法を用いて、評価値行列を複数の行列の積として近似し、まだユーザーによって評価値が入力されていない商品の評価値を推定します。

1冊目第3章「画像分類を実現する数理」では、画像を数値の配列として扱います。グレースケール画像は画素値を並べた行列として表せます。一方、カラー画像はRGBなど複数チャネルの行列を重ねた3次元配列、すなわちテンソルとして扱うのが一般的です。CNN（畳み込みニューラルネットワーク）では、このような行列やテンソルに対して、畳み込み層やプーリング層で演算を行い、画像の特徴を抽出していきます。

1冊目第4章「文章生成を実現する数理」のTransformerでも、行列は中心的な役割を担います。Transformerの中核をなすSelf-Attentionの計算では、あらかじめQuery、Key、Valueと呼ばれる行列を作り、それらを用いて膨大な計算処理を行うことでトークン間の関係性を計算します。Transformerが強力な枠組みである理由は、従来のRNN（リカレントニューラルネットワーク）のように単語を一つひとつ順番に見るのではなく、行列演算によってまとめて扱える点にあります。そのため、TransformerはRNNのように単語を逐次的に処理するモデルに比べ、並列計算に適した構造を持っています。

2冊目に入ると、行列はさらに広い場面で登場します。第2章「深層強化学習を実現する数理」では、DQN（Deep Q-Network）の重みパラメータが行列として表されます。第3章のViT（Vision Transformer）でも、画像パッチの集まりやTransformer Encoder内の計算は行列で記述されます。第4章の「マルチモーダルを実現する数理」では、OpenAIが開発した画像とテキストを扱うモデルであるCLIP（Contrastive Language-Image Pre-training）が登場し、画像とテキストの特徴ベクトルをまとめて扱うために行列演算が使われます。そして第6章「物体操作を実現する数理」では、ロボットアームの座標変換を、同次座標を用いた同次変換行列として表します。これは、回転による向きの変化と、並進による位置の変化を、一つの行列演算として扱うための表現です。

以上のように、行列は最先端技術を支える数理的枠組みとして欠かすことのできない、極めて重要な表現形式です。しかし、行列を「線形代数で出てくる抽象的な数理」として捉えているだけでは、なぜそれがAIに必要なのか、実感は持ちづらいのではないでしょうか。一方で、レコメンドの評価値、画像の画素、TransformerのAttention、DQNの重みパラメータ、ロボットアームの座標変換が、いずれも行列として扱われていると知ると、行列に対する学びのモチベーションが湧いてくるのではないでしょうか。

共通項3⁠：微分による学習⁠・最適化

3つ目の共通項は、微分による学習・最適化です。

AIにおける学習とは、多くの場合、予測と正解のズレを小さくすることです。そのズレの大きさを表す関数を損失関数と呼びます。損失関数の値が小さくなるように、モデル内部のパラメータを少しずつ更新していく。この更新の際の、言わば「方向」を教えてくれるのが微分です。

1冊目第2章「商品推薦を実現する数理」では、行列因子分解で得られる予測値と、実際の評価値とのズレを損失関数として定義します。そして、その損失関数を小さくするために勾配降下法を用います。勾配降下法とは、簡単にいえば、損失関数が小さくなる方向へパラメータを少しずつ動かしていく方法です。

1冊目第3章「画像分類を実現する数理」では、この勾配降下法の考え方が深層学習モデルの学習へと拡張されます。ここで重要になるのが誤差逆伝播法です。誤差逆伝播法とは、合成関数の微分、すなわち連鎖律を用いて、各パラメータに関する損失関数の勾配を効率的に計算する仕組みです。実際のパラメータ更新量は、勾配降下法やAdamなどの最適化手法が、学習率などを用いて決定します。

2冊目第2章「深層強化学習を実現する数理」のDQNでも、同じ枠組みが登場します。強化学習で得られるQ値をニューラルネットワークで近似し、その予測値と目標値のズレを小さくするために、勾配降下法と誤差逆伝播法を使います。2冊目第4章「マルチモーダルを実現する数理」のCLIPでも、画像とテキストの対応関係をうまく学習させるためにInfoNCE損失を定義し、その損失を小さくするようにパラメータを更新します。

ここで見えてくるのは、AIの学習は決して魔法のような現象ではなく、その背後には学習を駆動する数理的枠組みがあるということです。モデルがどれほど巨大になっても、基本的には「誤差を定義し、損失を小さくする」という流れがあります。現実の大規模モデルでは計算量も工夫も桁違いに大きくなりますが、それでも、その根本にある発想は、1冊目第2章で扱った勾配降下法と同じと言っても過言ではありません。

これは、現在の生成AIを理解するうえでも欠かせません。ChatGPTのような大規模言語モデルも、大量のテキストデータで事前学習され、その後、人間のフィードバックによる強化学習（RLHF）などを通じて調整されます。そこでも、目的に合う出力へ近づけるために、評価と更新の仕組みが設計されています。

共通項4⁠：確率によるモデル化⁠・推定

4つ目の共通項は、確率によるモデル化・推定です。

現実のデータには、ほとんどの場合、不確実性が含まれます。検索結果が本当にユーザーの意図に合っているか、画像に写っているものが犬なのか猫なのか、ロボットが次にどの状態へ移るのか、センサーが示した位置がどれくらい正しいのか。こうした問題を扱うには、「⁠ひとつの正解を断言する」だけでは不十分です。どの可能性がどれくらい高いのかを、確率として扱う必要があります。

1冊目第1章「情報検索を実現する数理」では、検索結果の良し悪しを適合率と再現率で評価します。これらは確率モデルそのものとは言い切れませんが、検索結果集合や関連文書集合に対する割合として定義され、条件付き確率に近い形で解釈できる評価指標です。ここでは、検索という身近な場面から、評価を数値化する考え方を学びます。

1冊目第3章「画像分類を実現する数理」では、モデルの出力スコアをソフトマックス関数によって、各成分が非負で総和が1になる値へ変換します。これにより、各クラスに対するモデル上の確率分布とみなして解釈できます。1冊目第4章「文章生成を実現する数理」のTransformerでは、次に出力されるトークンが確率分布としてモデル化されます。生成AIの文章は、次に来るトークンを確率分布に基づいて選ぶ処理を積み重ねることで作られています。

2冊目第1章「強化学習を実現する数理」では、確率はより中核的な役割を担います。マルコフ決定過程では、現在の状態と行動に応じて、次の状態が確率的に決まるという条件付き確率が数理モデルの設計の基礎となります。状態価値関数や行動価値関数では、将来得られる割引累積和、すなわちリターンの期待値を扱います。さらに、モンテカルロ法やε-greedy法では、試行錯誤やランダムな行動選択を含む学習プロセスが登場します。

2冊目第5章「自律移動を実現する数理」では、確率が章全体の中心的な役割を担います。ロボットが自分の位置を推定するとき、センサーには誤差が含まれます。そのため、ロボットの位置を一点で決め打ちするのではなく、確率分布として表します。ベイズの定理を用いれば、最初の予測（事前分布）を新しい観測結果によって更新し、より確からしい推定（事後分布）を得ることができます。カルマンフィルタは、この考え方を時系列の状態推定に応用した代表的な手法です。

現実世界の現象を考察する際には、必ずと言ってよいほど不確実な要素が含まれます。そして、その不確実性を扱うために確率は必要になります。不確実な要素があることを認識し、不確実なまま扱えるようにすること。これが、確率を学ぶ大きな意味です。これはAIの予測、強化学習の意思決定、ロボットの自己位置推定、生成AIの出力評価のすべてに通底すると言っても良いでしょう。

共通項5⁠：物理学に基づく考察

5つ目の共通項は、物理学に基づく考察です。

AIという言葉を聞くと、ソフトウェアやデータの話を思い浮かべる方が多いかもしれません。しかし、現代のAIやロボティクスは、デジタル空間の中だけで完結するものではありません。音声、衛星、ロボットアーム、自律移動。これらはいずれも、現実の物理世界と深く結びついています。

1冊目第5章「音声解析を実現する数理」では、音という物理現象を扱います。音は空気の振動であり、波として表されます。この章では、複雑な波形を三角関数の足し合わせとして表すフーリエ級数展開から出発し、離散フーリエ変換へと進みます。マイクで取得した音声をコンピュータで扱えるデジタルデータにするには、まず標本化と量子化が必要です。そのうえで、離散フーリエ変換などを用いることで、デジタル化された音声信号を周波数成分に分解して解析できます。音という物理現象を数式に翻訳し、さらに計算可能な形に変換する過程がここにあります。

1冊目第6章「衛星測位を実現する数理」では、GPSを題材にします。スマートフォンの地図アプリで現在地が表示される裏側では、衛星からの信号の到達時間を用いて、受信機の時計誤差を含む擬似距離を求めます。そして、受信機の3次元位置と時計誤差を未知数として、複数の衛星に関する連立方程式を解く処理が行われています。さらに、衛星の運動を理解するにはニュートン力学やケプラーの法則が必要です。位置情報の精度を考える段階では、特殊相対性理論と一般相対性理論による時間のズレまで関わってきます。日常的に使っている地図アプリが、相対性理論と地続きであることは、数理を学ぶ面白さをよく示していると思います。

2冊目第6章「物体操作を実現する数理」では、ロボットアームを扱います。最初は三角比を用いて、関節の角度とアーム先端の位置を考えます。そこから、同次座標変換、運動方程式、慣性モーメント、力がなす仕事、ポテンシャルエネルギー、そしてオイラー＝ラグランジュ方程式へと進みます。ロボットアームを動かすとは、単にモーターを回すことではありません。幾何学と力学を使って、現実空間での運動を数理モデルとして記述することです。

このように、現実空間において先端技術を考察する際には、物理学的な知識が不可欠です。そして、その知識を学ぶ上では、他の共通項を学ぶ中で習得してきた数理的枠組みが不可欠なのです。つまり、物理学は、ベクトル、行列、微分、確率といった数理的道具を用いて、現実世界の現象を数理モデルとして表すための理論体系だと言えます。

図から見えてくる3つのつながり

ここまで5つの共通項を順に見てきました。あらためて図に戻ると、バラバラに学んでいるだけでは見えにくいつながりが、少なくとも3つ浮かび上がります。

1つ目は、同じ数理的手法が、異なる技術の中で何度も現れるということです。情報検索、レコメンド、Transformer、ViT、CLIPは、扱うデータも目的も異なります。しかし、ベクトルで表し、内積で近さを測り、必要に応じて確率に変換するという骨格は共通しています。この点を捉え、考察を深められる数理思考を鍛えれば、新しい技術に出会ったときに、その技術を未知のものとしてではなく、既に知っている数理の組み合わせとして捉える糸口が見えてくるようになるはずです。

2つ目は、AIの学習が、個別のアルゴリズム名を超えてつながっているということです。行列因子分解、CNN、DQN、CLIPは、一見すると別々の技術です。しかし、ズレを損失関数として定義し、微分によって更新方向を求め、パラメータを少しずつ変えるという流れは共通しています。学習の仕組みをこのレベルで理解できると、AIを「何となく賢いもの」としてではなく、最適化計算を積み重ねる数理モデルとして捉え直すことができるようになります。

3つ目は、数理思考は最先端のソフトウェア技術だけでなく、現実世界の最先端技術を理解するためにも役立つということです。生成AIやCLIPのように、ソフトウェアとして動くAI技術だけを見ていると、AIはデータの世界の技術に見えるかもしれません。しかし、自律移動やロボット工学まで視野に入れると、AIはセンサーから得られる観測値や、位置、速度、力、重力、時間といった物理世界の量を扱わざるを得ません。つまり、現実世界で起きている現象を数理モデルとして捉え直すためには、数理思考が不可欠なのです。そして、数理思考を鍛えれば、その広大かつ深淵な世界を自らの思考に基づいて積極的に探求することができるようになるのです。

この3つのつながりが見えてくると、学び方そのものが変わります。新しい技術を見たときに、その名称や関連する言説に振り回されるのではなく、数理という確かな拠り所を手にすることで、技術を積極的に探求することができるようになるのです。

結び

本稿では、添付図の中央に置いた5つの共通項を軸に、全12章を概観しました。

ベクトルによる類似度計算は、情報検索、レコメンド、Transformer、ViT、CLIPなど、AI技術の根幹を支える数理的枠組みであり、現実世界のデータを数理として捉えるための基礎を提供します。行列による大規模データ処理は、レコメンド、CNN、Transformer、DQN、CLIPなどにおいて、大量の数値データやパラメータをまとめて扱うための枠組みを提供します。また、ロボットアームの座標変換では、回転や並進を行列として表すことで、位置や姿勢の変換を統一的に扱うことができます。微分による学習・最適化は、レコメンド、CNN、DQN、CLIPの学習など、AIの学習の基礎となる数理モデルを提供します。確率によるモデル化・推定は、検索評価、画像分類、文章生成、強化学習、ベイズ推定、カルマンフィルタなど、不確実性を伴う現象を数理モデルとして捉えるための枠組みを提供します。物理学に基づく考察は、音声解析、GPS、ロボット工学など、現実世界の現象を数理モデルとして捉えるための枠組みを提供します。

このように見ていくと、本シリーズが扱っているのは、12個の独立した技術ではありません。現代のテクノロジーに通底する数理思考を、異なる題材を通じて何度も鍛えるためのカリキュラムです。

本シリーズは、決して易しい内容だけを集めた入門書ではありません。数式も多く、途中式もできるだけ省略せずに示しています。読者の方には、紙とペンを用意して、自分の手で式を追いながら読み進めていただくことを想定しています。

なぜそこまでの取り組みを読者に求めるのか。理由は単純です。数理的思考力は、説明を眺めているだけでは鍛えられないからです。式を自分で書き、途中でつまずき、もう一度前に戻り、なぜその式変形が成り立つのかを考える。その時間を積み上げることで、はじめて数理的な理解が自分のものになります。

一方で、その過程を経ると、世界を眺める視点や景色は確実に変わるはずです。例えば、検索結果の順位やレコメンドの偏り、生成AIの出力、画像認識の出力、ロボットの動き、GPSの誤差。それらを単なる便利な機能や不思議な現象として眺めるのではなく、背後でどのような数理モデルが動き、どのような結果が生じているのかを考えられるようになるのです。

バラバラに見えていた技術が、ベクトル、行列、微分、確率、物理学という共通項を通して見れば、きっとつながって見えるはずです。これが、本稿のタイトルに込めた「バラバラでは見えない景色」です。

単純化した説明だけでは、到達できない理解があります。個別の技術を断片的に追うだけでは、見えない景色があります。本シリーズが、読者の皆さんにとって、その景色にたどり着くための足場になることを願っています。