書籍概要

ML Systems

実践的パフォーマンスエンジニアリングによるAI高速化

著者: 株式会社フィックスターズ，吉藤尚生，浅原明広，飯塚拓郎，小田桐海翔，木村圭佑，寺西勇裕，細川寛晃，八木武尊，永田怜慈，坂元佑弥　著
発売日: 2026年1月19日
更新日: 2026年1月19日

概要

LLM をはじめとする生成AI の台頭により，パフォーマンスエンジニアリング（Performance Engineering）が再び注目されています。パフォーマンスエンジニアリングとは，コンピューターシステムやソフトウェアのパフォーマンス（処理性能）を改善するために必要な技術を扱う総合分野です。近年のAI は，「モデルの規模を大きくすることで精度が良くなる傾向がある」という考え方が主流になりつつあり，大規模なモデルを扱えなければ最新のAI 分野についていくことが難しくなっています。そこで，本書では，パフォーマンスエンジニアリングを用いてAI の処理性能を改善し，処理時間を削減するための技術を取りまとめました。前半ではパフォーマンスエンジニアリングの理論や技法を網羅的に解説し，後半では大規模AI の代表格であるLLM を中心とした題材を通して，具体的にどのようにパフォーマンスエンジニアリングを実際のAI に適用できるのかを紹介します。本書を読み通すことで，これまで体系的に説明されてこなかったパフォーマンスエンジニアリングを理解し，AI 時代に必要な知識と技法を習得できます。

こんな方におすすめ

AI/LLMモデルを使ったサービスの提供を考えている方

株式会社フィックスターズ（Fixstars Corporation）

フィックスターズは，“Speed up your AI”をコーポレートメッセージとして掲げるテクノロジーカンパニーです。マルチコアCPU やGPU，FPGA 等の計算資源を最大限に活用するソフトウェア最適化技術を駆使し，AI モデルの推論処理と学習プロセスの両面で圧倒的な高速化を実現しています。医療，製造，金融，モビリティをはじめ様々な分野で，高性能計算（HPC）最適化の実績を持ち，次世代AI 技術の進化を推進しています。また，スーパーコンピュータや量子コンピュータなどの最先端分野において，産学連携による研究開発にも取り組み，貢献実績があります。

𠮷藤尚生（Naoki Yoshifuji）

フィックスターズで，パフォーマンスエンジニアリング・ラボのラボ長を務めています。2013 年に新卒で入社し，ファームウェア開発や車載用組み込みから，GPGPU などのヘテロジニアス開発，そして高性能計算プロセッサーの活用など，多様な環境でのパフォーマンスエンジニアリングを経験しました。2023 年頃からLLM などの大規模AI を高速化する支援依頼を多く受けるようになり，このようなAI 処理に対するパフォーマンスエンジニアリング技術をプロダクトとしてまとめるプロジェクトを立ち上げました。2025 年からはパフォーマンスエンジニアリング・ラボを立ち上げ，パフォーマンスエンジニアリングに関するあらゆる技術のとりまとめと普及をしています。

浅原明広（Akihiro Asahara）

ハワイ・マウナケア山頂にある「すばる望遠鏡」向けのガンマ線検出器を開発。中性子星パルサーの観測に20 代を捧げた後，宇宙物理学で博士号を取得。以後，エンジニアとしてIT分野にキャリアを転じ， Cell Broadband Engine， Xeon Phi，GPU， FPGA などのアクセラレータ技術に精通。ビジネスとテクノロジーの橋渡し役として，国内外の企業・研究機関と多数のソフトウェア開発プロジェクトに携わってきました。現在は株式会社フィックスターズのCMO として，AI 推論・学習処理を高速化するパフォーマンスエンジニアリング・プラットフォーム「 Fixstars AIBooster」の市場展開を推進しています。

飯塚拓郎（Takuro Iizuka）

CUDA 黎明期より高性能計算，とりわけGPU コンピューティングに傾倒。2009 年にフィックスターズ入社以来，Cell/B.E，GPU，マルチコアCPU をはじめとして，多種多様なアーキテクチャの計算資源を使い倒すことに情熱を注いできた。天才最適化職人の先輩諸氏を横目で見つつ，コンパイラ，ハードウェア仮想化，分散ファイルシステム，ドメイン固有言語など，様々なレイヤのソフトウェア技術を通して，パフォーマンスエンジニアリングをプロダクトへと昇華させる試みを続けてはや15 年。最後のピースはAI だったと信じて，株式会社フィックスターズのCTO ならびに「Fixstars AIBooster」のプロダクトマネージャとして製品開発を主導しています。

小田桐海翔（Kaito Odagiri）

フィックスターズでLLM や大規模AI を高速化するプラットフォームの開発をしています。大学院では植物病害を画像から自動診断する研究をしていました。当時は RTX A6000 を使って研究をしていた記憶があります。フィックスターズに入社するまでは食品スーパーマーケットの社内SE として，POS システムの開発管理やAWS の運用/管理をしていました。フィックスターズではサブリーダーとして，顧客からの要望ヒアリングから要件定義，設計，作業計画の立案までを実装し，チームメンバーへ作業依頼を出したり，実際に自分で実装，テストまで一連の開発プロセスを担当することもあります。

八木武尊（Hotaka Yagi）

2021年にフィックスターズへ新卒入社しました。大学院では高精度な浮動小数点数を用いた数値計算の研究を行い，情報処理推進機構の未踏ターゲット事業では量子アニーリングの産業応用の可能性を検証しました。入社後はSIMDやCUDAなどの並列化技術を活用したエッジデバイスの高速化に取り組み，新設子会社でドローンの新規事業立ち上げを担当。実証実験や事業企画などを通して，技術とビジネスの両面から事業推進に関わりました。現在は「Fixstars AIBooster」開発チームに所属し，カスタマーサクセスとしてお客様とともにパフォーマンスエンジニアリングの実践・推進に取り組んでいます。

3.4.1　集団通信手法の選定
3.4.2　複数台による処理：分散並列
3.4.3　メモリ余地の捻出
3.4.4　演算とそれ以外の同時実行
3.4.5　連続的なデータアクセス：テンソルの次元の順番
3.4.6　処理の固定：深層学習コンパイラ
3.4.7　特定のモデルに特化した高速ライブラリの利用

3.5　ハードウェア・カーネル層の改善

3.5.1　ハードウェアの特性に合わせた調整
3.5.2　カスタムカーネルによる演算コードの改善
3.5.3　ハードウェアの変更

3.6　まとめ

第4章　実践1：LLM 推論

4.1　問題設定

4.1.1　計測の対象
4.1.2　ベンチマークスクリプトの作成
4.1.3　本章の構成

4.2　ベースラインの計測

4.2.1　ベースラインの実行
4.2.2　理論限界スループットとの比較
4.2.3　PyTorch Profiler による分析

4.3　パフォーマンス改善の実践

4.3.1　改善策の実施と分析
4.3.2　性能の最大化：GPU 計算負荷の増加
4.3.3　メモリ使用量の削減：重みの量子化(Quantization)
4.3.4　バッチサイズの増加
4.3.5　モデルサイズの増加と投機的デコーディング

4.4　さらなる高みへ：推論エンジンと高度な技術

4.4.1　vLLM：高スループット推論エンジンの仕組み
4.4.2　vLLM によるベンチマーク結果
4.4.3　量子化による精度の補足

4.5　まとめ

第5章　実践2：LLM 事後学習

5.1　問題設定

5.1.1　環境構築

5.2　計測

5.2.1　学習時間とLoss 値の確認
5.2.2　NVIDIA Nsight Systems によるプロファイリング
5.2.3　PyTorch Profiler によるプロファイリング

5.3　パフォーマンス改善手法の考察

5.4　精度に影響のないパフォーマンス改善

5.4.1　MemoryCallback の削除
5.4.2　ハイパーパラメータチューニング
5.4.3　Torch Compile の適用

5.5　精度に影響のあるパフォーマンス改善

5.5.1　グローバルバッチサイズの調整

5.6　まとめ

第6章　実践3：LLM（継続）事前学習

6.1　問題設定

6.1.1　概要
6.1.2　LLM 学習処理のおさらい

6.2　評価基準の決定

6.3　観測と改善の繰り返し

6.3.1　初期問題の発見
6.3.2　最適化器の変更
6.3.3　プロファイリングで次の改善点を探す
6.3.4　ハイパーパラメータの調整
6.3.5　ハイパーパラメータチューニングの効果の確認
6.3.6　ハイパーパラメータの知見と影響の考察

6.4　まとめ

第7章　実践4：自動運転AI 学習

7.1　問題設定

7.2　プロファイルの設定

7.3　データローダーの分析

7.3.1　ログの確認によるデータローダー性能の評価
7.3.2　nsys によるデータローダーのプロファイリング

7.4　train プロセスの分析

7.5　Voxelize の分析と改善

7.6　TransFusionHead のget_targets の分析と改善

7.7　DepthLSSTransform の分析と改善

7.7.1　matmul の高速化
7.7.2　CPU 律速の改善

7.8　まとめ

第8章　実践5：自動運転AI 推論

8.1　問題設定

8.1.1　題材デバイス
8.1.2　題材モデル
8.1.3　使用ツールのバージョン
8.1.4　本章の構成

8.2　エッジデバイスへのデプロイの基本

8.2.1　高速なアクセラレータ・ランタイムエンジンの活用
8.2.2　カスタム実装
8.2.3　補足：モデルの修正

8.3　量子化適用の留意点

8.3.1　量子化の適用ステージ
8.3.2　混合精度量子化の留意点
8.3.3　キャリブレーション手法
8.3.4　対称量子化と非対称量子化

8.4　BEVFusion のデバイスへのデプロイ

8.5　CUDA-BEVFusion の更なる高速化（概要）

8.5.1　計測

8.6　CUDA-BEVFusion の更なる高速化（詳細）

8.6.1　Camera Backbone の改善
8.6.2　画像データの転送部の改善

8.7　まとめ

サポート

正誤表

本書の以下の部分に誤りがありました。ここに訂正するとともに，ご迷惑をおかけしたことを深くお詫び申し上げます。

（2026年2月25日最終更新）

P.2

誤	CUDA コア＊4をも言いた学習や推論より
正	CUDA コア＊4を用いた学習や推論より

P.44

誤	レイテンシを用いて異なるシステムを比較する際には、単位に気をつけましょう。
正	スループットを用いて異なるシステムを比較する際には、単位に気をつけましょう。

P.44-45

誤	よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなレイテンシが評価指標として用いられます。
正	よりハードウェアに近い階層では、演算とI/Oのそれぞれの観点で、以下のようなスループットが評価指標として用いられます。

P.47

誤	例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、レイテンシには調和平均を使用すべきです。
正	例えば、レイテンシとスループットの代表値を求めたい場合には、レイテンシには算術平均を、スループットには調和平均を使用すべきです。

P.162　数式(4.3)内

誤	TPOP
正	TPOT

P.162

誤	ここで、TPOP3(Time Per Output Token)4は1ステップ
正	ここで、TPOT3(Time Per Output Token)4は1ステップ

誤	システム全体のスループットは Throughput ≈ Batch Size / TPOPと近似できるため、
正	システム全体のスループットは Throughput ≈ Batch Size / TPOT と近似できるため、

誤	なお、このスループットとTPOPの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。
正	なお、このスループットとTPOTの近似は、システムが常にフルバッチで稼働する理想的なオフラインベンチマーク状態を仮定したものであり、厳密なものではないことに注意してください。

P.340　表7.6の備考

誤	バッチサイズを倍の64に設定る
正	バッチサイズを倍の64に設定する

ML Systems

実践的パフォーマンスエンジニアリングによるAI高速化

概要

こんな方におすすめ

目次

第1章 パフォーマンスエンジニアリング概論

1.1 パフォーマンスエンジニアリングとは

1.2 なぜ今パフォーマンスエンジニアリングか

1.3 AI 処理の概要

1.4 ハードウェア環境の概要

1.5 パフォーマンスエンジニアリングの実践方法

1.6 本書の構成

第2章 まずはパフォーマンスを計測する

2.1 計測とは

2.2 計測の基本戦略

2.3 計測のための基礎知識

2.4 計測の実践

2.5 まとめ

第3章 次にパフォーマンスを改善する

3.1 どこから着手するか

3.2 アプリケーション・データ層の改善

3.3 モデル・アルゴリズム層の改善

3.4 ソフトウェア・フレームワーク層の改善

3.5 ハードウェア・カーネル層の改善

3.6 まとめ

第4章 実践1：LLM 推論

4.1 問題設定

4.2 ベースラインの計測

4.3 パフォーマンス改善の実践

4.4 さらなる高みへ：推論エンジンと高度な技術

4.5 まとめ

第5章 実践2：LLM 事後学習

5.1 問題設定

5.2 計測

5.3 パフォーマンス改善手法の考察

5.4 精度に影響のないパフォーマンス改善

5.5 精度に影響のあるパフォーマンス改善

5.6 まとめ

第6章 実践3：LLM（継続）事前学習

6.1 問題設定

6.2 評価基準の決定

6.3 観測と改善の繰り返し

6.4 まとめ

第7章 実践4：自動運転AI 学習

7.1 問題設定

7.2 プロファイルの設定

7.3 データローダーの分析

7.4 train プロセスの分析

7.5 Voxelize の分析と改善

7.6 TransFusionHead のget_targets の分析と改善

7.7 DepthLSSTransform の分析と改善

7.8 まとめ

第8章 実践5：自動運転AI 推論

8.1 問題設定

8.2 エッジデバイスへのデプロイの基本

8.3 量子化適用の留意点

8.4 BEVFusion のデバイスへのデプロイ

8.5 CUDA-BEVFusion の更なる高速化（概要）

8.6 CUDA-BEVFusion の更なる高速化（詳細）

8.7 まとめ

サポート

正誤表

P.2

P.44

P.44-45

P.47

P.162 数式(4.3)内

P.162

P.340 表7.6の備考

商品一覧

第1章　パフォーマンスエンジニアリング概論

1.1　パフォーマンスエンジニアリングとは

1.2　なぜ今パフォーマンスエンジニアリングか

1.3　AI 処理の概要

1.4　ハードウェア環境の概要

1.5　パフォーマンスエンジニアリングの実践方法

1.6　本書の構成

第2章　まずはパフォーマンスを計測する

2.1　計測とは

2.2　計測の基本戦略

2.3　計測のための基礎知識

2.4　計測の実践

2.5　まとめ

第3章　次にパフォーマンスを改善する

3.1　どこから着手するか

3.2　アプリケーション・データ層の改善

3.3　モデル・アルゴリズム層の改善

3.4　ソフトウェア・フレームワーク層の改善