AI生成のマージリクエストに潜む、隠れたコスト［前編］

生成AIと自律型AIエージェントの進化は、ソフトウェア開発とセキュリティを急速に変革しています。今回はGitLabが日本の経営層を対象に行った調査の結果に基づき、CISOが直面する「AI導入を妨げずにリスクを最小化する方法」という課題に焦点を当て、今すぐ取り組むべき実践的なステップを提案します。急速に進化する生成AIと自律型AIエージェントは、すでにソフトウェア開発やセキュリティのあり方を根底から変えつつあります。企業が競争力を維持するには、AI活用を回避するのではなく、そのリスクを理解し、適切に管理する姿勢が不可欠です。

AIコーディングツールの導入により、コード生成のスピードは飛躍的に向上しました。しかしその一方で、多くの開発現場ではマージリクエスト（MR）の急増とレビュー負荷の偏在が新たなボトルネックとなり、シニアエンジニアの設計時間が圧迫されるという課題が顕在化しています。コードはこれまで以上に速く生み出されるようになったにもかかわらず、それを評価し、責任を持って承認するプロセスは同じようにはスケールしないためです。

こうしたAI生成コードの増加により、レビュー負荷の集中や設計時間の減少といった課題が生じています。本稿では、その実態と背景を整理するとともに、それらをどのように可視化し、レビューキャパシティを前提としたワークフロー設計へ落とし込むべきかについて解説します。具体的な指標と実践アプローチも含め、前後編に分けて紹介します。

AI導入で増加するMRの裏で起こっていること

AIコーディングツールは、ソフトウェア開発のボトルネックを解消したわけではありません。ボトルネックをレビューキューへと移し替え、シニアエンジニアへの負荷をこれまで以上に増やしました。

これは決して意外な結果ではありません。チームが拡大すればコード生成量は増えますが、レビューの専門性は同じようにはスケールしないからです。AI導入の成果をMRの件数やコード行数、ツール利用率で測る方法は、インプットを追いかけているだけで、本当のボトルネックが見えません。2025年のDORAデータによると、リードタイム、デプロイ頻度、変更失敗率、MTTRといった重要なデリバリー指標は、AIツールの利用増加に伴って改善していません。変更失敗率が最も低いチームは、AI支援開発ツールの利用率も最も低いことが分かっています。もちろん、これはAIツール自体が有害であることを意味するものではありませんが、MRが増えたからといって生産性が上がったと短絡的に考えるのは早計です。

レビューキューがスプリント計画そのものになった

最近、ある顧客のAI活用を推進するエンジニアリングチームと、デリバリー指標をレビューする機会がありました。AIコーディングツールの導入は高い定着率を示していましたが、サイクルタイムをレビュアー別に分解してみると、異なる実態が見えてきました。システムに最も精通したエンジニアのレビューキューは膨大な量に膨れ上がり、レビューが彼らの主たる業務となっていたのです。その結果、設計やアーキテクチャに充てる時間が圧迫されていました。

こうした現象は、この顧客に限ったものではなく、多くの企業で共通して見られます。MR件数が増えるにつれ、シニアエンジニアにワークロードが集中してしまい、レビュー時間は長期化し、シニアエンジニアが設計に使える時間は減少していきます。ワークロードが集中する背景には、深いシステムコンテキスト、セキュリティの機微に関わる領域、オーナーシップの境界を扱えるのがごく少数のグループに限られるからです。中堅エンジニアがシニアレビュアーに代わって重要な変更をレビューすることはできません。

そして、最大のコストはシニアエンジニアの注意力が分散してしまうことです。シニアエンジニアは頻繁に作業を中断することになり、品質の低下は避けられません。キューが長ければ長いほど表面的な承認が増え、複雑なMRは対応できる時間が来るまで滞留します。

CIを通過しても⁠、レビューコストが低いわけではない

自動チェックによって処理できる作業量は増えますが、人間の判断力は同じようにはスケールしません。パイプラインを通過していても、規制環境で働くレビュアーには依然として多くの確認事項が残ります。意図の理解、影響の評価、認可境界の確認、障害時の挙動、そして監査対応の準備状況です。

AI生成コードは、「⁠もっともらしい正しさ」（⁠一見正しいように見えるが、本当にそうかはわからないコード）を検証する負担を増大させます。コンパイルが通り、テストをパスし、lintの基準を満たしていても、レビュアーは意図した目的を果たしているかどうか、データ分類は適切か、ポリシー違反がないかを確認しなければなりません。構文的には正しくても、システムレベルの意図に沿って書かれていないコードほど、この検証に時間がかかります。キューが増大するにつれて、レビュアーが1件のMRに割ける時間は減り、スピードと品質の両方にプレッシャーがかかります。

生成はスケールするが⁠、判断力には限界がある

AIコーディングツールが生産性に貢献していることは認めるべきでしょう。コードを素早く生成し、リファクタリングを加速し、スプリントあたりで、より多くの機能に着手できるようになります。これは開発チームにとって明確な価値です。

しかし、レビュー能力には限界があります。レビュアーが把握できるコンテキストにも制約があり、承認には個人の責任が伴うからです。シニアエンジニアが規制環境で認証サービスへの変更を承認するとき、その承認は、個人としてではなく、組織としてのリスクを引き受ける行為でもあります。コードがどれだけ速く生成されたかに関わらず、その責任は変わりません。

「AIコードレビューを導入すればいい」というのは当然の発想です。しかし、リスクの高いコードパスでシニアエンジニアによるレビュー（シニアレビュー）が発揮する文脈に基づいた判断力を、AI支援レビューが確実に代替できる段階にはまだ至っていません。実際には、レビューの仕組みを再設計せずに生成だけを加速しても、問題は解決しません。

では、実際の現場ではどのようにこの課題に向き合っているのでしょうか。後編ではいくつかの事例を見ていきながら、AIコーディングツールの普及によって生じている「隠れたコスト」に対し、どのような指標でボトルネックを可視化し、レビュー体制やワークフローをどのように再設計すべきかについて、実践的なアプローチを紹介します。