実践的パフォーマンスエンジニアリングによるAI高速化

サポートページ

お詫びと訂正（正誤表）

本書の以下の部分に誤りがありました。ここに訂正するとともに、ご迷惑をおかけしたことを深くお詫び申し上げます。

（2026年4月9日最終更新）

P.iv

誤	人間はとAIとの距離が一気に縮まる
正	人間とAIとの距離が一気に縮まる

P.v

誤	と声が実際に声がかかり始めたのも
正	と実際に声がかかり始めたのも

P.47

誤	最も一般的な平均の概念でであり単に
正	最も一般的な平均の概念であり、単に

P.56

誤	すべてのユーザによるのすべてのイベント
正	すべてのユーザによるすべてのイベント

P.178

誤	GPUとの時間差ををどこかで待機
正	GPUとの時間差をどこかで待機

P.178

誤	CPU律速なFlashAttenion-2の
正	CPU律速なFlashAttention-2の

P.242

誤	「所定の精度」どのようにして決めるか
正	「所定の精度」をどのようにして決めるか

P.244

誤	$L_t$が$t$話目のトークンの損失
正	$L_t$が$t$番目のトークンの損失

P.244

誤	複数のトークンを入力をするので
正	複数のトークンを入力するので

P.316

誤	SparseEncodrの処理
正	SparseEncoderの処理

P.319

誤	にあるにある不可分操作
正	にある不可分操作

P.327

誤	60ミリ程度まで改善
正	60ミリ秒程度まで改善

（以下2026年4月8日更新）

P.10 図1.4内

誤	Up
正	Gate

誤	Gate
正	Up

補足：UpとGateが逆。UpからDownに直接矢印が向かい、GateはActivationを経てDownに向かう。ActivationとGateの両方からDownに矢印が向かう。

P.15

誤	例えば、4章のような推論の場合、3.4.8項で解説したKVキャッシュ
正	例えば、4章のような推論の場合、3.4.8項で解説するKVキャッシュ

P.19

誤	これは3.3.1 項でいう「狭くて浅いモデル」に分類されるため、
正	これは3.3.1 項でいう「狭くて深いモデル」に分類されるため、

P.27 図1.11内

誤	最適化の実装
正	パフォーマンス改善の実装

P.45

誤	Tera-Floating point Operation Per Second
正	Tera-Floating point OPerations per Second

P.47

誤	x1, x2, \codts, x_n
正	x_1, x_2, \codts, x_n

P.104

誤	勾配チェックポイント(Gradient checkpointhing)[活性値チェックポイント]
正	勾配チェックポイント(Gradient checkpointhing)

（以下2026年2月25日更新）

P.2

誤	CUDA コア＊4をも言いた学習や推論より
正	CUDA コア＊4を用いた学習や推論より

P.44

誤	レイテンシを用いて異なるシステムを比較する際には、単位に気をつけましょう。
正	スループットを用いて異なるシステムを比較する際には、単位に気をつけましょう。

P.44-45

誤	よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなレイテンシが評価指標として用いられます。
正	よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなスループットが評価指標として用いられます。

P.47

誤	例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、レイテンシには調和平均を使用すべきです。
正	例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、スループットには調和平均を使用すべきです。

P.162　数式(4.3)内

誤	TPOP
正	TPOT

P.162

誤	ここで、TPOP3(Time Per Output Token)4は1ステップ
正	ここで、TPOT3(Time Per Output Token)4は1ステップ

誤	システム全体のスループットは Throughput ≈ Batch Size / TPOPと近似できるため、
正	システム全体のスループットは Throughput ≈ Batch Size / TPOT と近似できるため、

誤	なお、このスループットとTPOPの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。
正	なお、このスループットとTPOTの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。

P.340　表7.6の備考

誤	バッチサイズを倍の64に設定る
正	バッチサイズを倍の64に設定する