高校数学で最先端AIの「嘘」を解き明かす ——AIはなぜ間違えるのか

はじめに

生成AIは、すでに多くの人にとって日常的な存在となりました。文章を書かせる、要約させる、コードを書かせる、画像について質問する、資料作成を手伝わせる。こうした使い方は、もはや特別なものではありません。最近は、Fable 5のように、安全保障上の懸念から政府当局によるアクセス制限の対象となったAIモデルも登場しており、最先端AIをめぐる性能・安全性・規制の議論は急速に進んでいます。

一方で、生成AIがもっともらしい誤答（すなわち「嘘⁠」⁠）を返すことも、多くの人が経験しているはずです。存在しない文献を挙げる。事実と異なる説明をする。自信満々に、しかし間違った答えを返す…。こうした、もっともらしい嘘を生成してしまう現象をハルシネーションとも言います。

前回、前々回の記事では、拙著『独学で鍛える数理思考』と『独学で鍛える数理思考2』（⁠技術評論社）を題材に、2冊12章の全体像と、その背後にある5つの共通項を整理しました。前々回の記事では、情報検索、商品推薦、画像分類、文章生成、音声解析、衛星測位、強化学習、深層強化学習、物体認識、マルチモーダル、自律移動、物体操作という12章を、1つの大きな学びの地図として眺めました。前回の記事では、それらの章を支える共通項として、ベクトルによる類似度計算、行列による大規模データ処理、微分による学習・最適化、確率によるモデル化・推定、物理学に基づく考察を取り上げました。

では、そのように数理を横断的に学ぶと、何ができるようになるのでしょうか。この問いに対して、本稿ではAIの「嘘」という観点から考察したいと思います。

もちろん、AIの嘘、言い換えれば「間違い」は生成AIだけに限りません。例えばWeb検索をしていると、検索結果がこちらの意図通りになっていないことは、誰もが経験したことがあるのではないでしょうか。ECサイトを利用していると、レコメンドされる商品が似たような商品ばかりで、自分の欲しいものと違っていると感じることもあります。専門的な分野においても、例えば画像認識AIが人間には簡単に見分けられる対象を誤判定することもあります。自律移動やロボット制御では、センサーの誤差や環境の変化によって、想定通りに動かないこともあります。

ここで大切なのは、こうした失敗を「AIだから仕方ない」「⁠ブラックボックスだからわからない」と割り切って片付けてしまわないことです。AIを「使う」だけなら画面に表示された出力を見れば済みますが、AIを「使いこなす」ためには、その出力を評価し、見極める力が必要です。どこまで信じてよいのか、どこから疑うべきなのか、対策はプロンプトの工夫で足りるのか、データの問題なのか、モデルの構造的な限界なのか…。こうした判断には、表面的なAIリテラシーではなく、その技術の裏側で駆動する数理モデルの仕組みに踏み込む姿勢と思考が欠かせません。

本稿では「AIはなぜ間違えるのか」という身近で切実な問いを入口に、2冊12章で扱った数理がどのように役立つのかを見ていきます。次の図を見ながら、考察していきましょう。

AIの間違いを⁠、3つの観点から考える

AIの間違いには、さまざまな原因があります。データが偏っていることもあれば、モデルの設計が用途に合っていないこともあります。学習が不十分な場合もありますし、そもそも問題設定が曖昧な場合もあります。原因を一つに決めつけることはできません。

この点、本シリーズで扱っている数理的考察を踏まえると、AIの間違いは少なくとも次の3つの観点から捉えることができます。その3点について、まずは概説しましょう。

1 数値化に起因する間違い

AIは、文章、画像、音声、位置、行動といった現実世界の情報を、そのまま理解しているわけではありません。文章は単語や記号の単位であるトークンに分解され、画像は画素であるピクセルや小さなまとまりのパッチに分解され、音声は時間方向の信号として扱われ、位置や速度は数値の組（ベクトルや行列）として表されます。つまり、AIを支える数理モデルは、現実の情報を数値に変換し、その数値に対して計算を行うことで処理しているのです。そして、数値化の仕方そのものが、その後の処理や判断を決定的に左右します（具体例は後述します⁠）⁠。数値化の仕方は、AIの能力を支えると同時に、「⁠間違い」の原因にもなり得るのです。

2 目的の置き方に起因する間違い

機械学習では、多くの場合、ズレの大きさを表す損失関数を小さくするように、モデル内部の数値であるパラメータを更新します。強化学習では、典型的には、将来得られる報酬の期待累積和（必要に応じて割引和）が大きくなるように方策を学習します。レコメンド、すなわち推薦システムでは、過去の評価やクリック、購入といったデータから、ユーザーが好みそうなものを推定します。文章生成型の大規模言語モデルでは、学習データから、与えられた文脈のもとで次のトークンが現れる条件付き確率分布を近似するように学習し、さらに人間のフィードバックなどを用いて出力を調整します。

ここで重要なのは、AIが「人間にとって本当に望ましいこと」を直接理解しているわけではない、という点です。AIは、何を良い結果とみなすかを数式で表した目的関数や損失関数、報酬などに従って振る舞います。したがって、目的の置き方がずれていれば、AIはそのずれをある意味で忠実に拡大することがあります。つまり、そもそもAIの間違いは「目的の設計と最適化」の問題として捉える必要があるのです。

3 前提の置き方に起因する間違い

確率モデルや物理モデルは、現実を丸ごと写し取るものではありません。あくまで現実の一部を切り出し、数理的に扱える形に単純化し、数式として表したものです。例えば、2冊目第5章で解説したカルマンフィルタは、状態の変化や観測誤差を確率分布として扱い、見えない状態を推定する手法です。また、1冊目第6章で解説した衛星測位（GPSなど）では、衛星からの信号の到達時間をもとに位置を推定します。さらに、2冊目第6章で解説したロボットアームでは、関節角度、位置、速度、力、エネルギーといった量を用いて運動を記述します。

これらのモデルは非常に強力ですが、置いた前提が現実から大きく外れると、推定や制御はうまくいきません。ノイズが想定より大きい、観測が不十分、モデル化していない外力が加わる、環境が急に変化するなど、こうした状況では数理モデルが現実を十分に表せていないために、適切な結果は得られないでしょう。つまり、数理モデルを設計するうえで、そもそもどのような前提を置いているのか、現実と前提の間にどのようなずれがあるのかを意識することが重要なのです。

以上の3つの点を意識すると、AIの出す答えの間違いはある程度整理できるはずです。AIが出した答えを評価するとき、例えば次の3つを順に考察することで、原因を特定する糸口が見つかるはずです。

AIに与えるデータを、どのように数値化したのか。
AIは何を、どのように最適化したのか。
AIは現実について、どのような前提を置いたのか。

この3つの問いを持つことが、AIを見極めるための第一歩です。では、これらの観点をより深く理解するために、『⁠独学で鍛える数理思考』シリーズで扱ったテーマと関連付けながらAIの間違いを見ていきましょう。

数値化の仕方に起因する間違い—⁠—現象のすべてを数値化することはできない

1冊目第1章「情報検索を実現する数理」では、TF-IDFを扱いました。TF-IDFは、単語の重要度を考えるための基本的な数理モデルです。ある文書によく出てくる単語は、その文書にとって重要である可能性が高い。一方で、どの文書にも頻繁に出てくる単語は、個々の文書をそれほど特徴づけることにはならない。こうした発想を、数列、対数、ベクトルといった数学を用いて表します。

このモデルを学ぶと、検索結果の背後にある考え方が見えてきます。検索とは、単に文字列が一致したページを探すことではありません。文書を数値化し、検索語との関係を計算し、順位を付ける処理です。したがって、検索結果が期待とずれるとき、その理由の一部は「情報をどのように数値化したか」にあります。

もちろん、TF-IDFは万能ではありません。単語の出現に基づくモデルなので、文脈や意味の深い対応をそのまま扱えるわけではありません。そこで近年は、文章をベクトルとして表し、意味的な近さをベクトル空間上の近さとして扱うベクトル検索も広く用いられます。RAG（検索拡張生成）のような仕組みでは、質問文と文書をベクトル化し、近い文書を検索したうえで生成AIに参照させます。

しかし、ベクトル検索になれば問題がすべて解決するわけでもありません。文章の意味をベクトルで表すということは、豊かな言語表現を有限個の数値の並びに押し込めるということです。その圧縮の仕方が優れていれば検索は便利になりますが、微妙なニュアンスや専門領域特有の意味の違いなどが、常に正確に表現されるとは限りません。ここにも、数値化に起因する限界があります。

この観点は、画像データにも当てはまります。1冊目第3章「画像分類を実現する数理」では、CNN（Convolutional Neural Network、畳み込みニューラルネットワーク）を扱いました。画像は人間にとっては一目で意味を持つものに見えます。しかし、コンピュータにとって画像は、ピクセル値の集まりです。CNNは、画像の小さな領域にフィルタを適用し、局所的な特徴を取り出し、それらを積み上げて分類を行います。つまり、画像を「特徴量の集合」として処理しているのです。

2冊目第3章「物体認識を実現する数理」では、ViT（Vision Transformer）を扱いました。ViTでは画像を小さなパッチに分割し、それぞれをTransformerで処理します。ここでも、画像をどう表すかが、モデルの出力に決定的に影響します。2冊目第4章「マルチモーダルを実現する数理」で扱ったCLIP（Contrastive Language-Image Pre-training）も、数値化の課題と深く関係しています。CLIPは、画像とテキストを同じようなベクトル空間に配置し、対応する画像と言葉が近づくように学習します。この発想によって、AIは「犬の写真」と「dog」というテキストを対応づけられるようになります。画像と言葉を、共通の数理的な空間で扱えるようにした点が、極めて革新的だと言えます。一方で、CLIPが作る対応は、画像と言葉のすべての意味を完全に写し取るものではありません。画像の細かな属性、背景、文脈、言葉の多義性、文化的なニュアンスなどは、モデルの学習データや表現方法に依存します。したがって、マルチモーダルAIが画像を「理解」しているように見えるときも、その理解は、画像とテキストをどのようなベクトルとして表したかに強く制約されています。

音声データにも同様のことが言えます。1冊目第5章「音声解析を実現する数理」では、フーリエ級数展開や離散フーリエ変換を扱いました。音声は連続的な波ですが、コンピュータで扱うには、一定の間隔で値を取り出す標本化に加え、各時点の振幅を有限値の範囲で一定の精度で丸める量子化によって、デジタルデータに変換する必要があります。周波数成分を取り出せば、音の特徴を解析できます。しかし、標本化の仕方や周波数の扱い方を誤れば、もとの音に含まれていた情報を正しく扱えなくなります。

このように、AIにおけるデータ活用の第一歩は、現象を数値に変換することです。そして、数値にする以上、必ず何かを残し、何かを捨てています。本シリーズで扱う「数理思考」とは、この「何を残し、何を捨てて数理モデルを設計するのか」を見抜く力でもあります。

目的の設定に起因する間違い—⁠—AIは⁠、与えられた尺度を追いかける

次に、目的の設定に起因する間違いを見ていきます。

1冊目第2章「商品推薦を実現する数理」では、レコメンドを扱いました。ECサイトや動画サービスで表示される「おすすめ」は、私たちにとって非常に身近な機能です。レコメンドでは、ユーザーと商品、あるいはユーザーとコンテンツの関係をデータとして表し、似た傾向を持つユーザーや商品を見つけます。その際、ベクトルの向きの近さを測るコサイン類似度や、ユーザーと商品の関係を行列に分解して考える行列因子分解が重要な役割を担います。

この仕組みを知ると、レコメンドが「偏る」理由も見えてきます。過去の行動や評価に基づいて「似ているもの」を勧める以上、すでに好きだったものに近いものが出やすくなります。これは便利である一方、思いがけない発見を妨げることもあります。自分が過去に見たもの、買ったもの、クリックしたものに引っ張られ、レコメンドされる商品の幅が広がらないこともあります。

つまり、レコメンドが偏るのは、AIに商品選びのセンスがないからではありません。類似性を見つけるという目的に忠実に動いた結果として、似たような商品ばかりが並ぶのです。ここで必要なのは、「⁠なぜこのAIは偏るのか」と感覚的に疑うことではなく、「⁠何を似ていると定義したのか」「⁠何を良い推薦とみなしたのか」を数理的な視点から問うことです。

この発想は、深層学習にもつながります。1冊目第3章「画像分類を実現する数理」や2冊目第2章「深層強化学習を実現する数理」では、坂道を下るように誤差の値を小さくしていく勾配降下法や、出力側から入力側へズレの原因をたどる誤差逆伝播法が登場します。AIが学習するとは、多くの場合、予測と正解のズレを数値で表し、そのズレが小さくなる方向へパラメータを少しずつ更新することです。

ここで大事なのは、AIが人間のように「反省している」わけではない、ということです。深層学習モデルが行っているのは、誤差の値を小さくするように大量のパラメータを更新する最適化計算です。そのため、損失関数が適切でなければ、学習結果も適切になりません。学習データが偏っていれば、その偏りを反映します。評価指標が現実の目的とずれていれば、モデルは評価指標上は良く見えても、実際には望ましくない振る舞いをすることがあります。AIの性能を語るときに「精度が高い」という言葉だけでは不十分なのは、そのためです。何に対する精度なのか。どのデータで測った精度なのか。何を失敗と定義したのか…。少なくとも、そこまで深く検証しなければ、AIの性能を評価したことにはなりません。

2冊目第1章「強化学習を実現する数理」では、強化学習の基本構造を扱いました。強化学習では、AIの行動主体であるエージェントが環境の中で行動し、その結果として報酬を得ます。そして、将来にわたって得られる報酬の期待累積和、例えば割引後の収益の期待値が大きくなるように、方策を学習します。この考え方は非常に強力です。人間が細かい手順をすべて教えなくても、報酬を設計すれば、エージェントが試行錯誤を通じて行動を改善していくからです。しかし、ここには大きな難しさがあります。報酬の「設計」を誤ると、エージェントは人間の意図とは違う方法で報酬を最大化してしまうことがあります（詳しくは2冊目第2章のコラム『強化学習の「報酬」をいかにして設計するか？』を参照⁠）⁠。

これは、強化学習に限った問題ではありません。実務でAIを導入するときにも、しばしば似た問題が起こります。クリック率を上げたいのか、それとも長期的な満足度を上げたいのか。問い合わせ対応を速くしたいのか、それとも正確にしたいのか。採用選考を効率化したいのか、それとも公平性を重視したいのか…。目的を1つの数値に落とし込むとき、そこでは数理モデルの設計者による「取捨選択」が必ず要求されます。

生成AIのハルシネーションも、この観点から考察すると理解しやすくなるのではないでしょうか。1冊目第4章「文章生成を実現する数理」では、Transformerを扱いました。大規模言語モデル（LLM: Large Language Model）は、非常に大まかに言えば、これまでの文脈から次に来るトークンの確率分布を計算し、その分布に基づいて文章を生成します。もちろん、実際のモデルは巨大で複雑ですし、学習や調整の過程も単純ではありません。それでも、生成AIが「真実そのもの」を直接取り出しているわけではなく、学習したパターンに基づいて確率的に出力を生成している、という点は重要です。

この構造を踏まえると、生成AIの嘘、すなわちハルシネーションを「完全に防ぐ」ことは極めて困難だと理解できるはずです。モデルが文脈上もっともらしい続きを生成することと、その内容が現実世界と結びついて正しいかどうかは、同じではないからです。さらに、出力を人間にとって好ましいものに調整する段階では、評価やフィードバックの設計が重要になります。もし評価の仕方が、正確さよりも「言葉としての流暢さ」や「自信のある表現」を強く促すものであれば、モデルはもっともらしいが誤った出力を返しやすくなる可能性があります。

もちろん、ハルシネーションの原因を1つに単純化することはできません。学習データ、モデル構造、検索や外部知識との接続、評価方法、利用者の質問の仕方など、複数の要因が絡みます。しかし、数理的に見れば、少なくとも「確率的生成」「⁠目的関数」「⁠評価基準」という観点に絞って考えることができます。この視点を持つだけで、生成AIへの向き合い方は大きく変わるはずです。

AIが間違えたとき、私たちは「AIは信用できない」と切り捨てることもできます。反対に、「⁠AIはすごいからたぶん正しい」と信じてしまうこともできます。しかし、どちらも危うい態度です。必要なのは、そのAIが何を目的として学習し、どの尺度を良い出力とみなし、どのような最適化を通じて振る舞っているのかを考えることです。数理思考は、このような姿勢で最先端AIと向き合うためには絶対に欠かせません。

前提の置き方に起因する間違い—⁠—モデルは現実を丸ごと写すものではない

3つ目は、前提の置き方に起因する間違いです。

2冊目第5章「自律移動を実現する数理」では、ベイズ推定やカルマンフィルタを扱いました。自律移動では、ロボットや移動体が、自分がどこにいるのか、周囲の状況がどう変化しているのかを推定する必要があります。しかし、センサーの値にはノイズが含まれますし、周囲の環境（物の配置や風向きなど）は常に変化します。そこで、確率を用いて不確実性を扱います。

ベイズ推定では、まず事前分布（最初に持っている予測）を、新しい観測によって事後分布（更新された予測）に変換します。そして、観測結果を得るたびに、現時点の状態についての見方を改めます。この考え方は、AIやロボティクスだけでなく、私たちの日常的な判断にも通じます。

ただし、確率モデルを使うには「前提」が必要です。どのような分布を仮定するのか。ノイズはどの程度発生すると見なすべきか。状態はどのように変化するのか。観測はどのように得られるのか…。カルマンフィルタは、線形な状態遷移・観測モデルやガウス雑音といった前提のもとで状態を推定する非常に有用な手法ですが、それは置かれた前提の上に成り立っています。前提が現実から乖離してしまえば、推定結果も当然ずれてしまいます。

ここで重要なのは、「⁠どれほど高度な数理モデルであっても、現実の振る舞いと完全に一致するわけではない」ということです。モデルは現実を単純化するからこそ扱えます。すべてを丸ごと取り込もうとすれば、計算も理解もできません。重要なのは、いかなる前提を置くべきかを数理モデルの設計者が見極めることです。これこそ、数理思考が要求される重要なポイントです。

この前提の問題は、衛星測位やロボットアームのような物理的なテーマだけに限りません。生成AI、商品推薦、画像分類や物体認識のような身近なAIでも、モデルが置いた前提から外れた瞬間に、出力は大きくずれることがあります。

たとえば、1冊目第4章「文章生成を実現する数理」で扱ったTransformerや大規模言語モデルでは、これまでの文脈から次に来るトークンの確率分布を予測する、という枠組みで文章を生成します。すると、一見するとそれらしい文章なのに、内容が間違っているということがあります。これは、確率的にもっともらしいトークンを連ねて文章を生成した結果、存在しない文献名やもっともらしい数値を出してしまうことがあるためです。これは、生成AIが意図的に嘘をついているからではなく、モデルの前提と利用者が期待する役割の間にずれがあるからです。

1冊目第2章「商品推薦を実現する数理」で扱ったレコメンドにも、同じ構造があります。レコメンドAIを駆動する数理モデルは、例えば「過去の評価、閲覧、購入といった行動が、今後の好みを推定する手がかりになる」「⁠似た行動を取ったユーザーや、似た評価を受けた商品は、今後の推薦にも役立つ」といった前提に立っています。この前提は多くの場面で有効ですが、人の関心が急に変わった場合、贈り物のために普段とは違う商品を探している場合、あるいはまだ十分な履歴がない場合には、レコメンドが的外れになることがあります。

さらに、1冊目第3章「画像分類を実現する数理」や2冊目第3章「物体認識を実現する数理」で扱ったCNNやViTでも、学習時のデータと実際に使う場面の画像がある程度似ている、という前提が重要になります。学習データでは明るい環境で正面から撮られた画像が多かったのに、実際には暗い場所、斜め方向、遮蔽物のある状況で使うなら、モデルの見え方は変わります。人間には同じ対象に見えても、AIにとってはピクセルやパッチの並びが大きく変わるため、分類結果で誤りが生じることがあります。

1冊目第6章「衛星測位を実現する数理」も、この点をよく示しています。スマートフォンの地図アプリで現在地が表示される裏側では、衛星からの信号を用いて位置を推定しています。そこには、連立方程式、ニュートン力学、相対性理論まで関わります。日常的に使っている位置情報サービスが、高度な物理学と結びついていること自体、数理を学ぶ面白さをよく表しています。

しかし、衛星測位にも誤差はあります。信号の伝わり方、時計のずれ、衛星配置、周囲の環境など、さまざまな要因が位置推定に影響します。このとき、単に「現在地表示がずれることがある」と言うだけでは不十分です。どのような物理量を、どの方程式で扱い、その過程でどのように誤差が生じるのかを見極めるには、数理思考が不可欠です。

2冊目第6章「物体操作を実現する数理」では、ロボットアームの運動を扱いました。関節角度から先端位置を求めるには三角比や行列が必要です。運動を考えるには、速度、加速度、力、エネルギーといった物理量が必要です。さらに、オイラー＝ラグランジュ方程式のような解析力学の枠組みに踏み込むことで、ロボットアームの動きを統一的に記述できます。

ロボットが思った通りに動かないとき、その原因はさまざまです。センサーの誤差かもしれません。制御の遅れかもしれません。モデル化していない摩擦や外力かもしれません。関節の可動域や特異点の問題かもしれません。ここでも、必要なのは「ロボット制御は難しい」と諦めるのではなく、どの前提が現実とずれているのかを見極めることです。

数理モデルは、現実を理解するための強力な足場です。しかし、足場である以上、それがどこに立脚しているのかを把握しなければなりません。数理思考とは、数理モデルを読み解く力であると同時に、モデルの前提を疑う力でもあるのです。

「AIを疑う」とは⁠、感情で否定することではない

ここまで見てきたように、AIの間違いは、少なくとも3つの問いから考えることができます。この3つの問いを持つと、「⁠AIを疑う」という言葉の意味が変わってきます。

AIを疑うとは、AIを信用しないということでも、AIの価値を否定することでもありません。AIがどれほど強力な技術であるかを理解するからこそ、その強みと限界を慎重に見極める必要があるのです。

例えば、生成AIが作った文章を読むとき、「⁠文章がわかりやすいから正しい」と考えるのは危険です。わかりやすさと正確さは別の性質だからです。レコメンドで表示された商品を見るとき、「⁠おすすめされたから自分に最適だ」と考えるのも危険です。その推薦は、過去の行動や他者との類似度に基づくものであって、自分の将来の関心を完全に知っているわけではないからです。画像認識の結果を見るときも、自律移動の推定結果を見るときも、同じです。AIの出力は、あくまで数理モデルによって得られた、いわば予測の結果なのです。

だからといって、AIを信用してはいけない、という話ではありません。検索、推薦、画像分類、文章生成、音声解析、衛星測位、強化学習、深層強化学習、物体認識、マルチモーダル、自律移動、物体操作。これらの技術が、現代社会を大きく支えていることは疑いようがありません。最先端AIを扱う際には、その出力は、数理モデルを通じて得られた結果であって、現実世界をそのまま正確に反映したものではないということを理解したうえで、その出力を適切に評価し、判断することが求められます。その判断を支えるのが、数理思考です。この姿勢は、AI時代の実務において極めて重要であり、実務でAIに関わるからには決して避けては通れないと考えます。本稿を執筆した理由の1つは、このような問題意識からでした。

なぜ「高校数学」で始める必要があるのか

ここで、あらためて本稿のタイトルに含まれる「高校数学」という言葉に戻りたいと思います。

最先端AIを理解する糸口は、高校で学ぶ数学や物理など、教育課程に出てくる概念の中に数多く散りばめられていると言っても過言ではありません。例えば、検索結果やRAGを理解するには対数や三角関数、ベクトルの考え方が必要です。レコメンドや深層学習を理解するには行列や微分の考え方が必要です。TransformerやCLIPを理解するにはベクトル、行列、確率、微分が必要です。カルマンフィルタを理解するには確率分布、積分、行列が必要です。衛星測位やロボットアームを理解するには三角関数、連立方程式、微分、物理学が必要です。

つまり、最先端AIの中身へ進もうとすると、高校で学ぶ概念が何度も姿を変えて現れます。それは、単に試験問題を解くためだけの知識ではありません。現代のAIやロボティクスを見極めるための思考のOSと言っても良いものです。

もちろん、本シリーズで扱う内容は高校数学だけに収まるものではありません。大学初等レベルの内容にも踏み込みます。勾配降下法、誤差逆伝播法、ベルマン方程式、動的計画法、モンテカルロ法、DQN、Multi-Head Attention、InfoNCE損失、カルマンフィルタ、オイラー＝ラグランジュ方程式。いずれも簡単な内容ではありません。

それでも、出発点は高校数学にあります。高校数学を「受験のための知識」として終わらせるのではなく、最先端AIへ続く思考の足場として捉え直すこと。この視点を持つだけで、現代を生きる私たちにとって、数学を学ぶことの意味は大きく変わります。

数学を敬遠する理由の一つに、「⁠これが何の役に立つのかわからない」という感覚があります。しかし、ベクトルが検索やCLIPにつながり、行列がTransformerやDQNにつながり、微分がAIの学習につながり、確率が生成AIや自律移動につながり、三角関数や物理学が衛星測位や物体操作につながるとわかれば、目の前の式の見え方は変わるはずです。

このように、本シリーズが目指している到達点の一つは、数理思考を鍛え、最先端技術の仕組みや性能を見極める力を養うことです。

2冊12章を「AIはなぜ間違えるのか」という視点で読み直す

ここで、2冊12章を「AIはなぜ間違えるのか」という視点から、もう一度整理してみましょう。

第1章の情報検索と強化学習は、「⁠数理モデルをどう設計するか」を考える入口です。検索順位は、文書と検索語の関係をどう定義するかによって変わります。強化学習の行動は、状態、行動、報酬、方策をどう定義するかによって変わります。ここでは、AIの振る舞いが最初の問題設定に強く依存することが見えてきます。

第2章の商品推薦と深層強化学習では、最適化の考え方が中心になります。レコメンドでは、ユーザーと商品の関係を行列として扱い、好みを推定します。深層強化学習では、Q値やニューラルネットワークを用いて行動価値を近似します。ここでは、AIが「何を良い結果とみなすか」によって、出力や行動が大きく変わることが見えてきます。

第3章の画像分類と物体認識では、画像の表し方が中心になります。CNNは局所的な特徴を積み上げ、ViTは画像をパッチとして扱います。どちらも非常に強力ですが、画像をどう分解し、どう特徴として扱うかによって、得意なことと苦手なことが変わります。画像分類や物体認識の誤りを考えるには、この表現の違いを理解する必要があります。

第4章の文章生成とマルチモーダルでは、現代の生成AIを理解するための核心に触れます。Transformerは、文章生成の背後にある大規模な計算構造を支えています。CLIPは、画像とテキストを同じ数理的空間で扱う発想を示します。ここでは、生成AIやマルチモーダルAIの便利さと同時に、ハルシネーションが生まれる理由や生成AIの限界を考えるための足場が得られます。

第5章の音声解析と自律移動では、現実世界から得られる情報を、数理モデルで扱える形にどう変換し、どう推定するかが主題になります。音声解析では、連続的な信号をデジタルデータとして扱い、周波数成分を解析する必要があります。自律移動では、ノイズを含む観測から状態を推定する必要があります。ここでは、データ化と確率推定の限界を理解できます。

第6章の衛星測位と物体操作では、AIやデータ処理が現実の物理世界と接続します。衛星測位では、時間、距離、重力、相対性理論が位置推定に関わります。物体操作では、幾何学、運動学、動力学、解析力学がロボットアームの制御に関わります。ここでは、AIがソフトウェアだけで完結するものではなく、現実世界の物理法則と地続きであることが見えてきます。

このように読み直すと、2冊12章は単なる技術解説に留まらず、AIやロボティクスの出力をどのように解釈し、どのように疑い、どのように評価すべきかを考えるための訓練になっています。

AI時代に必要なのは⁠、答えを出す力だけではない

生成AIの登場によって、「⁠答え」を出すこと自体は以前より簡単になりました。しかし、その「答え」を適切に評価する力がなければ、私たちはAIの言いなりになってしまう危険性すらあります。この問題と真正面から向き合うには、AIの出力を表面的に眺めているだけでは不十分で、その背後の数理モデルに目を向ける必要があります。もちろん、研究者レベルの理解を得る必要はありません。すべての数式を完全に導出できなければAIを使ってはいけない、という話でもありません。しかし、AIが社会のあらゆる場面に入り込むほど、少なくともその出力を評価するための数理的な思考力は、多くの人にとって必要なのではないでしょうか。

AIを導入する組織では、単に「AIを使える人」だけでなく、「⁠AIの出力を評価できる人」が必要になります。さらに言えば、「⁠AIがなぜそのように間違えるのかを説明できる人」が重要になります。そうした人材は、ツールの操作方法だけを学んでいては育ちません。数理モデルの仕組みを地道に追い、式を自分の手で動かし、前提と限界を考える訓練が必要です。本シリーズが、途中式をできるだけ省略せず、幅広いテーマを横断しながら数理を積み上げているのは、そのためです。

結び

本稿では、「⁠AIはなぜ間違えるのか」という問いから出発し、2冊12章で扱った数理がどのように関わるのかを見てきました。そもそもAIが強力なのは、数理モデルそのものが強力だからです。同時に、AIに限界があるのも、数理モデルが現実をある形でしか扱えないからです。強みも限界も、言わば同じ場所から生まれています。

だからこそ、AI時代に必要なのは、AIを闇雲に信じることでも、漠然と恐れることでもなく、数理に基づいて見極める姿勢と数理思考を磨き続ける鍛錬です。それは、数理モデルに対する「問い」を立てるということでもあります。数理モデルに対する疑いを「問い」に落とし込めるかどうかは、数理思考の鍛錬にかかっています。

『独学で鍛える数理思考』と『独学で鍛える数理思考2』は、決して易しい内容だけを集めた本ではありません。むしろ、紙とペンを用意し、数式を自分の手で追い、途中で立ち止まりながら読み進めることを求める本です。しかし、その過程を経ることで、AIを見る目は確実に変わります。AIがますます身近になる時代だからこそ、その仕組みを数理的に考える力は、これまで以上に重要になります。本シリーズがそのための一歩となれば幸いです。