実践的パフォーマンスエンジニアリングによるAI高速化

サポートページ

お詫びと訂正(正誤表)

本書の以下の部分に誤りがありました。ここに訂正するとともに、ご迷惑をおかけしたことを深くお詫び申し上げます。

(2026年2月25日最終更新)

P.2

CUDA コア*4をも言いた学習や推論より
CUDA コア*4を用いた学習や推論より

P.44

レイテンシを用いて異なるシステムを比較する際には、単位に気をつけましょう。
スループットを用いて異なるシステムを比較する際には、単位に気をつけましょう。

P.44-45

よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなレイテンシが評価指標として用いられます。
よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなスループットが評価指標として用いられます。

P.47

例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、レイテンシには調和平均を使用すべきです。
例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、スループットには調和平均を使用すべきです。

P.162 数式(4.3)内

TPOP
TPOT

P.162

ここで、TPOP*3(Time Per Output Token)*4は1ステップ
ここで、TPOT*3(Time Per Output Token)*4は1ステップ
システム全体のスループットは Throughput ≈ Batch Size / TPOPと近似できるため、
システム全体のスループットは Throughput ≈ Batch Size / TPOT と近似できるため、
なお、このスループットとTPOPの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。
なお、このスループットとTPOTの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。

P.340 表7.6の備考

バッチサイズを倍の64に設定る
バッチサイズを倍の64に設定