実践的パフォーマンスエンジニアリングによるAI高速化

サポートページ

お詫びと訂正(正誤表)

本書の以下の部分に誤りがありました。ここに訂正するとともに、ご迷惑をおかけしたことを深くお詫び申し上げます。

(2026年4月9日最終更新)

P.iv

人間とAIとの距離が一気に縮まる
人間とAIとの距離が一気に縮まる

P.v

声が実際に声がかかり始めたのも
と実際に声がかかり始めたのも

P.47

最も一般的な平均の概念でであり単に
最も一般的な平均の概念であり、単に

P.56

すべてのユーザによるすべてのイベント
すべてのユーザによるすべてのイベント

P.178

GPUとの時間差をどこかで待機
GPUとの時間差をどこかで待機

P.178

CPU律速なFlashAttenion-2の
CPU律速なFlashAttention-2の

P.242

「所定の精度」どのようにして決めるか
「所定の精度」どのようにして決めるか

P.244

$L_t$が$t$話目のトークンの損失
$L_t$が$t$目のトークンの損失

P.244

複数のトークンを入力するので
複数のトークンを入力するので

P.316

SparseEncodrの処理
SparseEncoderの処理

P.319

にあるにある不可分操作
にある不可分操作

P.327

60ミリ程度まで改善
60ミリ程度まで改善

(以下2026年4月8日更新)

P.10 図1.4内

Up
Gate
Gate
Up

補足:UpとGateが逆。UpからDownに直接矢印が向かい、GateはActivationを経てDownに向かう。ActivationとGateの両方からDownに矢印が向かう。

P.15

例えば、4章のような推論の場合、3.4.8項で解説したKVキャッシュ
例えば、4章のような推論の場合、3.4.8項で解説するKVキャッシュ

P.19

これは3.3.1 項でいう「狭くて浅いモデル」に分類されるため、
これは3.3.1 項でいう「狭くて深いモデル」に分類されるため、

P.27 図1.11内

最適化の実装
パフォーマンス改善の実装

P.45

Tera-Floating point Operation Per Second
Tera-Floating point OPerations per Second

P.47

x1, x2, \codts, x_n
x_1, x_2, \codts, x_n

P.104

勾配チェックポイント(Gradient checkpointhing)[活性値チェックポイント]
勾配チェックポイント(Gradient checkpointhing)

(以下2026年2月25日更新)

P.2

CUDA コア*4をも言いた学習や推論より
CUDA コア*4を用いた学習や推論より

P.44

レイテンシを用いて異なるシステムを比較する際には、単位に気をつけましょう。
スループットを用いて異なるシステムを比較する際には、単位に気をつけましょう。

P.44-45

よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなレイテンシが評価指標として用いられます。
よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなスループットが評価指標として用いられます。

P.47

例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、レイテンシには調和平均を使用すべきです。
例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、スループットには調和平均を使用すべきです。

P.162 数式(4.3)内

TPOP
TPOT

P.162

ここで、TPOP*3(Time Per Output Token)*4は1ステップ
ここで、TPOT*3(Time Per Output Token)*4は1ステップ
システム全体のスループットは Throughput ≈ Batch Size / TPOPと近似できるため、
システム全体のスループットは Throughput ≈ Batch Size / TPOT と近似できるため、
なお、このスループットとTPOPの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。
なお、このスループットとTPOTの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。

P.340 表7.6の備考

バッチサイズを倍の64に設定る
バッチサイズを倍の64に設定