AIニュースノート

AIニュースノート⁠Google検索⁠AIの影響, Microsoft 365 Copilot⁠GPT-5搭載, Claude Sonnet 4⁠APIで100万トークンのコンテキストに対応, Kaggle Game Arena⁠ゲーム対戦による新ベンチマークなど

gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近の興味深いAIに関連するニュース概要を簡単にまとめてみました。

※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。

政策⁠⁠社会動向

Google検索⁠AIの影響

Googleが2025年8月6日、Google検索におけるAIの影響についてデータと分析を公表した。

Googleは、AI Overviewsなどの検索機能によりユーザーがより長く複雑な問いを投げかけるようになり、総検索数やページへのクリック機会が増えていると報告している。総オーガニッククリック量は前年と概ね安定する一方で、迅速に離脱しない⁠品質の高いクリック⁠は増加しており、AIによる概要提示が多くのリンクを表示するため、ユーザーが深掘りしたいテーマについてはサイトへの流入が増えると説明している。記事はまた、AI体験を作る際にウェブをハイライトし、明示的な引用やインライン出典を提示する方針を示している。

ジュニア開発者はAI時代でも活躍できる⁠GitHubが提案する成長戦略

GitHubが2025年8月7日、AI時代におけるジュニア開発者の成長と活躍の方法を公式ブログで解説した。

AIの進化によりソフトウェア開発の現場は大きく変化しているが、GitHubは「AIツールを使いこなせる新世代の開発者こそ企業が求めている」と強調する。記事では、Copilotを活用した学習・コーディング支援や、AIを活用したパブリックプロジェクトの構築、GitHub Actionsによる自動化、コードレビューでの成長、AIによるデバッグ支援など、5つの具体的な成長戦略を紹介。AIの自動補完に頼りすぎず、疑問点はCopilot Chatで質問し、プロジェクトやレビューを通じて実践力を高めることが推奨されている。MITライセンスの活用やオープンソース貢献も推進されており、AI時代の開発者に必要なスキルとマインドセットを具体的に示している。

サービス⁠⁠アプリケーション

Microsoft 365 Copilot⁠GPT-5を搭載

Microsoftが2025年8月7日、Microsoft 365 CopilotとCopilot StudioにGPT-5を搭載した。

CopilotはGPT-5のリアルタイムルーターで最適なモデルを自動選択し、日常的な質問には高速応答、複雑な業務には深い推論で対応する。ライセンス保有者は即日利用可能で、一般ユーザーにも順次展開。Copilot StudioでもGPT-5を主モデルとして選択でき、FAQや活用例も多数公開されている。

Microsoft⁠gpt-oss活用方法を解説

Microsoftは2025年8月5日、OpenAIのgpt-oss-120bおよびgpt-oss-20bをAzure AI FoundryやWindows AI Foundry上で活用する方法を公式ブログで解説した。

記事では、gpt-oss-120b(高難度推論・コード生成向け)やgpt-oss-20b(エージェント的タスク・ツール利用向け)を、AzureやWindowsの各種環境で柔軟に推論・カスタマイズ・運用できることを紹介。クラウドやローカルでのエンドポイント構築、独自データによるファインチューニング、ONNX/Triton等へのエクスポート、API互換の推論など、エンタープライズや開発者向けの多様な活用方法を具体的に説明している。

Grok 4⁠全ユーザーに無料開放と利用上限拡大

2025年8月11日、xAiが大規模言語モデル「Grok 4」を全世界の全ユーザーに無料開放した。

Grok 4は、Autoモードを使うことで複雑なクエリを自動的にGrok 4へルーティングでき、Expertモードを選択すれば常時Grok 4を利用可能。今回の開放にあわせて、期間限定で大幅な利用上限拡大も実施されており、より多くのユーザーがGrok 4の高性能なAI機能を体験できる。

Geminiアプリ⁠パーソナライズ機能強化

Googleが2025年8月13日、Geminiアプリに一時チャット機能と新たな個人情報管理オプションを追加した。

Geminiアプリは、過去の会話履歴を参照してユーザーの好みや文脈を学習し、よりパーソナライズされた応答を返す新機能を導入した。新たに追加された「一時チャット」は、履歴やAIモデルの学習に残さず、最大72時間のみ保持されるプライベートな会話モードで、個人的な質問や一時的なアイデア出しに適している。設定画面では「個人コンテキスト」「Keep Activity」など細かなデータ管理が可能となり、音声・画像・画面共有データの利用範囲も個別に制御できる。これらの機能は2.5 Proモデルから順次展開され、今後さらに多くの国やモデルに拡大予定。

Google Finance⁠AI中核の新設計

Googleが2025年8月8日、AIを中核に据えた新しいGoogle Financeのテストを開始した。

新しいGoogle Financeは、AIによる包括的な回答を軸に、複雑な金融リサーチを一度に行える体験を目指している。記事では高度なチャート表示(移動平均やローソク足など⁠⁠、商品や一部暗号資産を含む幅広いリアルタイムデータ、そしてライブニュースフィードの導入を挙げ、米国で段階的に提供するとしている。

みんなの自動翻訳@TexTra⁠NICTニューラル機械翻訳エンジンの高精度化

NICTが2025年8月12日、⁠みんなの自動翻訳@TexTra」においてニューラル機械翻訳エンジン(NMT)に大規模言語モデル(LLM)技術を導入し翻訳精度を向上させたと発表した。

LLMの一部機能をNMTに応用し、BLEUスコアが全言語方向で平均2.2ポイント向上した。モデルサイズは約1.25倍、CPU翻訳速度は0.8倍に低下(GPUはほぼ変化なし⁠⁠、メモリ使用量は増加。産業翻訳など曖昧性の少ない入力で高精度な翻訳が可能となり、今後もLLM技術の導入でさらなる性能向上を目指す。

Claude Sonnet 4⁠APIで100万トークンの長大コンテキストに対応

Anthropicが2025年8月12日、Claude Sonnet 4のAPIで最大100万トークンの長大コンテキスト対応を発表した。

Claude Sonnet 4は、従来比5倍となる100万トークンの入力コンテキストをAPI経由で扱えるようになり、7万5千行超のコードベースや数十本の論文・契約書などを一括で解析可能となった。大規模コード解析や文書合成、エージェントの長期記憶など多様な用途に対応し、Bolt.newやiGent AIなど顧客事例も紹介。API料金は20万トークン超で段階的に加算され、バッチ処理やプロンプトキャッシュによるコスト削減も案内されている。Amazon Bedrockでは既に利用可能で、Google Cloud Vertex AIにも順次対応予定。

Claude Code⁠Opusプランモードを追加

Anthropicが2025年8月14日、Claude Codeに「Opusプランモード」オプションを追加した。

Claude Codeの最新アップデートで、モデル選択画面に「Opusプランモード」が新たに追加された。この設定を有効にすると、計画作成時にはClaude Opus 4.1が、その他の作業時にはClaude Sonnet 4が自動的に使い分けられる仕組みとなる。Opus 4.1の高度な推論力とSonnet 4の高速・低コストな実行性能を両立できるのが特徴。モードの切り替えは/modelセレクターから「Opus plan mode」を選択するだけで、Shift+Tabでデフォルト・自動承認・プランの各モードを素早く切り替えられる。Opusアクセス権のある全ユーザーが即時利用可能となっている。

Claude⁠過去チャット参照⁠プロンプトキャッシュ拡張の新機能

2025年8月12日、Claudeが過去のチャット履歴参照機能とプロンプトキャッシュのTTL拡張を発表した。

今回のアップデートで、Claudeは過去のチャット履歴を参照しながら会話を継続できるようになった。まずはMax、Team、Enterpriseプラン向けに順次展開され、今後他プランにも拡大予定。設定画面から機能の有効化が可能。また、プロンプトキャッシュの有効期間(TTL)が1時間に延長され、ベータ用ヘッダーなしで一般利用できるようになった。これにより、長時間の会話や大規模プロンプト利用時の利便性が向上する。

LM Studio 0.3.23⁠gpt-oss対応強化とMoE最適化

LM Studioチームが2025年8月12日、LM Studio v0.3.23の安定版リリースを発表した。

本バージョンでは、openai/gpt-ossのチャット内ツール呼び出し信頼性向上、MoE(Mixture of Experts)エキスパート重みのCPU/GPU強制配置オプション追加、低VRAM環境向けのパフォーマンス改善、各種バグ修正が行われた。llama.cpp--n-cpu-moe技術を活用し、モデルごとの詳細設定も可能。アップデートはアプリ内または公式サイトから。ライセンスや詳細は公式ドキュメント参照。

ComfyUI「Subgraph」機能⁠複雑ワークフロー再利用

Comfy Orgは2025年8月7日、ComfyUIの「Subgraph」機能の公式リリースを発表した。

Subgraph機能は、複数ノードを1つのサブグラフノードとしてパッケージ化し、複雑なワークフローをシンプルかつ再利用可能な部品として管理できる。部分実行(Partial Execution)機能も追加され、特定の分岐やサブグラフのみを個別にテスト・デバッグすることも容易。公式ドキュメントやダウンロード案内も充実しており、今後はコミュニティによるサブグラフ共有や複雑な生成AIパイプラインの効率化が期待される。

ChatGPT画像黄ばみ補正ツール⁠chatgpt image yellow tint corrector

apolinario(@multimodalart)が2025年8月、ChatGPT生成画像の黄ばみを補正するツール「chatgpt image yellow tint corrector」を公開した。

このツールは、ChatGPTで生成された画像に特有の黄色味(yellow tint)を自動で補正できるWebアプリである。Hugging Face Spaces上で提供される。使い方は画像をアップロードするだけで、黄ばみ補正済みの画像が即座に得られる。

UnYellowGPT⁠バッチ色補正と手動微調整機能を追加

UnYellowGPTチームが2025年8月12日、AI画像の色補正ツール「UnYellowGPT」にバッチ処理と手動微調整機能を追加した。

UnYellowGPTは、AI生成画像に生じやすい黄ばみや色かぶりを自動で補正するWebツールである。今回のアップデートで、最大5枚の画像を一括補正できるバッチ処理機能と、色温度や明るさをスライダーで手動調整できる微調整機能が追加された。これにより、SNS運用やマーケティングなど大量画像を扱う現場での作業効率が大幅に向上し、ブランドイメージの統一やクリエイティブな表現の幅も広がる。高解像度画像(最大10MB)にも対応し、初心者からプロまで幅広く活用できる。

開発⁠開発ツール

Visual Studio⁠GPT-5を利用可能に

Microsoftが2025年8月12日、Visual StudioのGitHub CopilotでGPT-5モデルの提供開始を発表した。

GPT-5はOpenAIの最新大規模言語モデルで、複雑なコーディングやリファクタリング、説明生成の精度・速度が大幅に向上。Copilotの有料プランで順次利用可能となり、エンタープライズ管理者は設定で有効化できる。従来モデル(o1, GPT-4.5, o3-mini, GPT-4o)は段階的に廃止予定。利用方法はIDE内のCopilotバッジからGPT-5(Preview)を選択するだけ。公式ブログでは特徴や導入手順、注意点、今後の展開も案内されている。

VS Code⁠Copilot Beast Mode⁠エージェントプロンプト強化の新機能

VS Codeは2025年8月13日、GitHub Copilotのエージェントプロンプトに「Beast Mode」アップグレードが導入され、Insiders版で利用可能となった。

CopilotのBeast Modeは、GPT-4.1/5系モデル向けにエージェントの自律性と完遂力を高めるプロンプト設計を採用した新機能である。主な改善点は「keep going」リマインダーの強化、計画・調査・実装・デバッグ・テストの明確なワークフロー指示など。これにより、モデルがユーザーの指示を途中で止めずに最後までやり切る傾向が強まり、複雑なタスクの分割・進捗可視化・自律的な情報収集が可能となった。Insiders版ではgithub.copilot.chat.alternateGptPrompt.enabledchat.todoListTool.enabledの設定で有効化でき、今後の安定版への展開も期待される。

GitHub CopilotにGPT-5 mini⁠パブリックプレビュー

GitHubは2025年8月13日、Copilot向けにGPT-5 miniモデルのパブリックプレビュー提供を開始した。

GPT-5 miniは、OpenAIのGPT-5の高速・低コスト版で、Copilot全プラン(Free含む)で利用可能。精度重視のコーディングや編集タスクに最適化され、低遅延・低コストを実現。VS CodeやGitHub.com、モバイルアプリでモデル選択ができ、エンタープライズ管理者向けの有効化設定や利用状況の可視化も案内されている。今後は他AI機能との連携や、より細かなカスタマイズ機能の拡充も期待される。

v0.app⁠誰でも使えるAIアプリ自動生成プラットフォーム

Vercelが2025年8月11日、AIによる全自動アプリ生成サービス「v0.dev」「v0.app」として正式リリースした。

v0.appは、1つのプロンプト入力だけでUI・コンテンツ・バックエンド・ロジックを含むフルスタックアプリを自動生成できるAIプラットフォームである。従来のv0.devでは複数回のプロンプトや手動修正が必要だったが、v0.appは「エージェント型AI」により、要件の分解・設計・実装・デバッグ・改善までを一貫して自動化する。ユーザーは「ダッシュボード付きの利用状況分析アプリ」など自然言語で要望を伝えるだけで、チャートやフィルタ、テストデータを含む本格的なアプリが即座に構築される。エラー検出や設計案の提示、Web検索やファイル読込、外部ツール連携も自動で行い、ノーコードで本番運用可能。無料プランから利用でき、商用・エンタープライズ向けの拡張も用意されている。

Gemini CLIとJules⁠AIコーディングエージェント比較

Denise Kwan氏は2025年8月13日、Gemini CLIとJulesの比較記事を公開した。

Gemini CLIとJulesはいずれもGemini 2.5 Proを活用したAIコーディングエージェント。Gemini CLIはローカル端末での多用途・ターミナル統合型で、コマンドラインから直接AI支援を受けられる。JulesはGitHub連携・Webベース・非同期タスク処理に強み、チーム開発やクラウド連携に適する。記事では両者の特徴や活用例、選択基準を詳細に解説し、開発スタイルや用途に応じた最適な選択を提案している。

Jules⁠Web検索機能を搭載し技術情報収集を自動化

Googleが2025年8月8日、AIコーディングエージェント「Jules」にWeb検索機能を追加した。

Julesは、タスク実行時に関連する技術ドキュメントやコードスニペットを自動でWeb検索し、必要な情報を取得できるようになった。これにより、依存ライブラリの最新ドキュメントや実装例を自動で参照し、より正確かつ高品質なタスク完了が可能となる。Web検索は技術ドキュメント向けに最適化されており、一般的なニュース検索などは非対応。Gemini 2.5の推論能力を活用し、コード生成やバグ修正、依存関係の解決など幅広い開発タスクをサポートする。新機能は全ユーザーが利用可能で、今後も機能拡張が予定されている。

Jules⁠インタラクティブプラン機能で共同作業を強化

Googleが2025年8月8日、Julesに「インタラクティブプラン」機能を追加した。

インタラクティブプランは、タスク開始時にJulesがコードベースを読み込み、ユーザーに質問しながら計画を練り上げる新機能である。従来の一方的な自動実装ではなく、ユーザーと対話しながら要件を明確化し、最適な実装方針を共同で策定できる。これにより、複雑な要件や曖昧な仕様にも柔軟に対応し、品質の高いコード生成やバグの減少が期待できる。Gemini 2.5の推論を活用し、今後も共同作業機能の拡充が予定されている。

Kiro⁠価格体系とウェイトリスト方針

Kiroが2025年8月1日に価格体系の更新とウェイトリスト招待の開始を案内し、2025年8月7日に仕様や使用量の追跡方法を詳述した。

Kiroはウェイトリストの招待を順次送付し、新しい価格体系を導入することを示した。新プランはFree、Pro、Pro+、Powerなどの階層を設け、操作の種類をVibe(チャット型)とSpec(タスク実行)に分けて課金や割当を行う点を説明している。ダッシュボードでの使用状況可視化や有料プラン向けの柔軟なオーバーチャージ設定(Specあたり 0.20 V i b e 0.04など)も案内している。

Kiro⁠Model Context Protocol連携

Kiroが2025年8月13日、Model Context Protocol(MCP)との統合を通じて開発ワークフローを拡張する方法を紹介した。

記事はMCPを通じてKiroが外部ツールやデータに安全かつ一貫してアクセスできる仕組みを提供する点を説明している。KiroにはMCPクライアントが組み込まれており、ユーザーやワークスペース単位でMCPサーバーを設定できること、標準入出力(stdio)を通じたJSONベースのリクエスト応答でGitLab等と連携し、Issueの取り込みやスペック駆動の開発フローを自動化できる点を具体例で示している。

Lovableが学生向けにProプラン半額キャンペーンを開始

Lovableが2025年8月、学生認証でProプランが50%オフとなる割引キャンペーンを開始した。

学生は教育機関のメールアドレスや学生証で認証することで、Lovable Proを月額12.50ドル(1年間)で利用できる。公式サイトには、世界各国の大学生による活用事例や、スタートアップ・学業・インターン獲得など多様な成功体験が掲載されている。オックスフォード、スタンフォード、ハーバードなど著名大学のロゴも並び、信頼性をアピール。FAQでは割引の適用条件や期間、既存ユーザー・教員・大学単位での導入方法なども案内されている。

n8nが全プランでワークフロー無制限⁠新料金体系を導入

n8nチームが2025年8月7日、全プランでワークフロー・ステップ・ユーザー数の上限撤廃と新料金体系の導入を発表した。

新料金体系では、StarterからEnterpriseまで全プランでワークフロー・ステップ・ユーザー数が無制限となり、自由な自動化・実験・チーム展開が可能となった。新設のBusinessプランは自己ホスト型で、Git連携やSSO、LDAPなどエンタープライズ級の機能を中規模チーム向けに提供。Enterpriseプランは従来のワークフロー数ベースから実行回数ベース課金に移行し、実際の自動化価値に応じた予算管理がしやすくなった。コミュニティエディションは従来通り無料で、全体として開発者・企業・個人の幅広いニーズに対応する料金体系へ刷新された。

Context7⁠ドキュメント全体解析⁠Q&A強化の大型アップグレード

2025年8月9日、Context7がコードスニペットだけでなくドキュメント全体の解析やQ&A自動生成など大幅な機能強化を実施した。

Context7の今回のアップグレードでは、従来のコード断片解析に加え、ドキュメント全体の内容を自動で解析できるようになった。ユーザーのリクエストごとに関連する質問と回答を自動生成し、CursorやClaudeなどのAIツールへの文脈提供も大幅に向上。これにより、より深い理解や効率的なAI活用が可能となった。公式Xポストで60秒のデモ動画も公開されている。

LangChain「Deep Agents」長期計画⁠複雑タスク対応エージェント

LangChainは2025年7月30日、深い計画性とサブエージェント活用による「Deep Agents」アーキテクチャを解説した。

Deep Agentsは、従来の単純なループ型エージェントに比べ、詳細なシステムプロンプト、計画ツール、サブエージェント、ファイルシステム連携、外部ツール統合などを組み合わせることで、長期的かつ複雑なタスク遂行を実現する新アーキテクチャ。OSSパッケージやUIも公開され、独自の深層エージェント構築やカスタマイズが可能になっている。

Nexus⁠OSS AIルーター

Grafbaseは2025年8月、NexusというOSSのAIルーターを発表した。

Nexusは複数のModel Context Protocol(MCP)サーバーを一元管理し、タスク種別やコスト、性能要件に応じて最適なLLMへリクエストを自動ルーティングするOSSソリューション。セキュリティやガバナンス、可観測性、スケーラビリティも重視し、AIエージェントや業務AIの運用・監査・コスト管理を簡素化できる。今後は高度なルーティング戦略やリアルタイム分析、外部サービス連携などの機能追加も予定されており、エンタープライズ用途にも対応が進む。

Open Lovable⁠AIでReactアプリを即時生成するOSS

MendableAIが2025年、AIによるReactアプリ自動生成ツール「Open Lovable」をオープンソースで公開した。

Open Lovableは、任意のウェブサイトをAIと対話しながら最新のReactアプリとして複製できるOSSツール。Firecrawlチームが開発し、E2BやFirecrawlなど複数のAPIプロバイダーに対応する。セットアップはgit clonenpm installで完了し、APIキーを設定すれば即座に利用可能。MITライセンスで公開されており、商用・個人問わず自由に拡張できる。主要言語はTypeScriptで、サンドボックス実行やWebスクレイピング機能も備える。スター数は1万件を超え、開発者コミュニティでも注目を集めている。

Wassette⁠WebAssemblyベースのAIエージェント用ツール

Microsoftが2025年8月6日、WebAssemblyコンポーネント実行基盤「Wassette」をオープンソースで公開した。

Wassetteは、Model Context Protocol(MCP)対応のAIエージェントが必要なツール(Wasmコンポーネント)を自律的かつ安全に取得・実行できる基盤。Wasmtimeベースのサンドボックスとデフォルト拒否の権限管理で高い安全性を実現し、VS Code+GitHub CopilotなどのAIエージェントがOCIレジストリから必要なツールをオンデマンドで取得・実行できる。これにより、AIエージェントがタスクに応じて動的に機能拡張し、ユーザーの許可のもとで安全に外部ツールを活用できる。今後はネットワーク越しのMCPツール提供や多言語サンプルの拡充も予定されている。

Istio 1.27.0リリース⁠AI推論拡張やnftables対応など多数追加

Istioチームが2025年8月11日、サービスメッシュ「Istio」バージョン1.27.0のリリースを発表した。

Istio 1.27では、Kubernetes向けAI推論拡張(Gateway API Inference Extension)への公式対応、アンビエントモードのマルチクラスタα対応、独自CA利用時のCRLサポート、ListenerSets APIによるリスナー設定の再利用、Sidecarモードでのnftables対応など、多数の新機能・改善が追加。主要Linuxディストリビューションのnftables移行にも対応し、今後はアンビエントモードでのnftablesも開発予定。アップグレードや詳細な変更点は公式ドキュメント参照。

run-gemini-cli⁠Gemini CLIをGitHub Actionsで自動化

GoogleがGitHub Actions向けに「run-gemini-cli」アクションを公開している。

run-gemini-cliは、Gemini CLIをGitHubリポジトリのワークフローに統合できる公式アクション。PRレビューやIssueトリアージ、コード解析・修正などをGeminiモデルと連携して自動化できる。APIキーはGoogle AI Studioで取得し、GitHub Secretsに設定。セットアップは/setup-githubコマンドやサンプルワークフローのコピーで簡単。ツール連携やプロジェクト固有の指示(GEMINI.md⁠⁠、高度な認証・監視・カスタマイズも可能。ライセンスはApache-2.0。

Browser Echo⁠AIエージェント向けブラウザログストリーミングOSS

instructaが2025年、AIエージェントや開発者向けのブラウザログストリーミングツール「Browser Echo」をオープンソースで公開した。

Browser Echoは、ブラウザのconsole.*ログを開発用サーバーのターミナルやファイルにリアルタイム転送できるOSSツール。React/Vue/Next.js/Nuxt/Viteなど主要フレームワークに対応し、AIコーディングアシスタント(Copilot CLIやGemini CLI等)との連携も容易。開発時のみ有効で本番バンドルには影響せず、MITライセンス。導入は各フレームワーク用プロバイダ+@browser-echo/coreをインストールし、設定オプションで出力先やバッチ処理、スタックトレース、ファイル保存などを柔軟に制御できる。詳細は公式README参照。

DSPy 3.0.0⁠宣言的AIプログラミングフレームワークの最新版

StanfordNLPが2025年8月13日、AIプログラミング用OSSフレームワーク「DSPy」バージョン3.0.0をリリースした。

DSPyは、プロンプトではなくPythonコードでLLMを宣言的に組み立てられるOSSフレームワークである。3.0.0では新しい最適化手法(GEPA, GRPO, SIMBA)や拡張性の高いアダプター、MLflow 3.0連携による観測性向上などが追加された。RAGやエージェント、パイプライン最適化など多様なAIシステム構築に対応し、コミュニティ主導で進化している。MITライセンスで公開されており、研究・商用問わず幅広く利用できる。

Chrome Prompt API⁠Gemini Nano搭載のローカルAI機能

Addy Osmani氏が2025年8月、Chromeブラウザおよび拡張機能向けにローカルAI推論を可能にする「Prompt API」について動画をYouTubeに投稿した。

Prompt APIは、Gemini Nanoを活用した無料のローカルAI機能をChromeに組み込むもので、ネットワーク通信なしでプライバシーを保ったまま自然言語処理や生成AIの活用ができる。初回のみモデルをダウンロードすれば以降はオフラインで高速に動作する。

CoAct-1⁠GUI操作とコーディングを融合した新世代エージェント

Linxin Songらが2025年8月5日、GUI操作とプログラム実行を組み合わせたマルチエージェントシステム「CoAct-1」を発表した。

CoAct-1は、従来のGUI操作型エージェントの課題であった効率や信頼性の低さを克服するため、⁠コーディングによる直接操作」を新たなアクションとして導入したAIエージェントである。オーケストレーターがタスクごとにGUIオペレーターとプログラマーエージェントを動的に使い分け、ファイル操作やデータ処理などはPythonやBashスクリプトで高速・確実に実行する一方、視覚的な操作は従来通りGUIで行う。OSWorldベンチマークで従来手法を大きく上回る成功率(60.76%)と効率(平均10.15ステップ)を達成。論文・コード・データはCC BY-SA 4.0ライセンスで公開されている。

モデル⁠⁠基盤技術

Kaggle Game Arena⁠AIのゲーム対戦による新ベンチマーク

Google(DeepMindとKaggle)が2025年8月4日、Kaggle上のGame Arenaを用いたAIモデル評価の新たなベンチマークプラットフォームを紹介した。

Kaggle Game Arenaは、チェスなどの対戦型ゲームを通じてAIモデルの戦略的推論や長期計画能力を評価する公開ベンチマークプラットフォームである。ゲームハーネスや環境はすべてオープンソースで提供され、全モデルのペアごとに多数の対戦を行うall-play-all方式で最終ランキングが決定される。記事では、チェスの展示対戦イベントや今後のGo・ポーカー・ビデオゲームなどへの拡張計画、AIの汎用的な問題解決能力を測るための新たな評価手法としての意義が解説されている。

実際に8月6日から8日にかけて配信されたチェス展示大会は、各対戦が最大4ゲーム(2ポイント先取、同点時はサドンデス)というトーナメント形式で進行した。トーナメントの結果はo3が1位、Grok-4が2位、Gemini 2.5 Proが3位となった。なお、最終的なリーダーボード順位は全モデルのペアごとに約100試合を行う総当たり戦形式(all-play-all system)で決定される。

GLM-4.5V⁠ZhipuAIの多言語⁠多機能VLMモデル

ZhipuAIが2025年、GLM-4.5VモデルをHugging Faceで公開した。

GLM-4.5Vは、GLM-4.5-Airを基盤とした次世代ビジョン・ランゲージモデル。42種のベンチマークでSOTA性能を達成し、画像・動画・ドキュメント理解やGUI操作、長文解析、グラウンディングなど多様なタスクに対応。Thinking Modeスイッチで高速応答と深い推論を切替可能。MITライセンスで、pip install transformers-v4.55.0-GLM-4.5V-previewで導入できる。詳細な使い方やAPI、論文・GitHubも案内されている。

GLM-4.5⁠エージェント⁠推論⁠コーディング特化型LLMの技術レポート公開

GLM-4.5チームが2025年8月8日、大規模言語モデル「GLM-4.5」シリーズの技術レポートをarXivで公開した。

GLM-4.5は、3550億パラメータのMixture-of-Experts型大規模言語モデルで、推論・エージェント・コーディング(ARC)タスクに特化した設計が特徴。23兆トークンの多段階学習や専門家による強化学習を経て、TAU-BenchやAIME 24などのベンチマークで上位を記録した。今回公開されたのはモデル本体ではなく、アーキテクチャや学習手法、評価結果などを詳細にまとめた技術報告であり、研究・産業応用の参考資料として位置付けられる。小型版GLM-4.5-Air(106B)の仕様も同時公開されている。

Qwen-Image-EliGen⁠高精度画像生成AIモデル

DiffSynth-Studioが2025年8月、Qwen-Image-EliGenをModelScopeで公開した。

Qwen-Image-EliGenは、DiffSynth-Studioが開発した高精度な画像生成AIモデルである。多様なプロンプトに対応し、リアルな写真風画像やイラストの生成が可能。公式ページではサンプル画像や推論APIの利用方法が案内されており、研究・商用利用の両方に対応したライセンスで提供されている。画像生成の品質や柔軟性が特徴で、クリエイティブ分野やAIアート、デザイン用途など幅広い応用が期待される。

Matrix-Game 2.0⁠リアルタイム⁠ストリーミング型インタラクティブ世界モデル

Skywork AIが2025年8月、Matrix-Game 2.0モデルとデータセットを公開した。

Matrix-Game 2.0は、Unreal EngineやGTA5環境で生成した1200時間超のインタラクティブ動画データを活用し、25FPSのリアルタイム動画生成・ユーザー操作注入・長尺自動回帰生成を実現する世界モデル。マウス・キーボード操作をフレーム単位で反映し、複雑な環境下でも高精度な動画生成が可能。ベンチマーク比較や実装例、クイックスタート手順、GitHub・論文・プロジェクトページも案内。MITライセンス。

MolmoAct⁠3次元空間で推論するオープンな行動推論モデル

Allen Institute for AI(AI2)が2025年8月12日、3D空間での行動推論に特化した新モデル「MolmoAct」を発表した。

MolmoActは、深度情報を含む知覚トークン・画像空間ウェイポイント・ロボット用低レベルアクションの3段階推論で、従来のVLA(Vision-Language-Action)モデルを超える汎用性と解釈性を実現。Open-X Embodiment等の大規模データと独自のロボット行動チェーンデータで事前学習し、少量の追加学習で多様なロボットやタスクに適応。ベンチマークでSOTA達成、モデル・データ・評価ツール一式を完全公開。ユーザーは自然言語や画像上の軌道描画で直感的に制御でき、今後も実機実験やシミュレーション拡充を予定。ライセンス等は公式サイト参照。

Claudeの安全対策⁠Anthropicが多層的なセーフガード体制を解説

Anthropicが2025年8月12日、Claudeの安全対策とセーフガード体制の詳細を公式ブログで解説した。

AnthropicのSafeguardsチームは、利用規約策定・モデル訓練・有害出力の評価・リアルタイム検知・脅威分析まで多層的な安全対策を実施している。統一ハームフレームワークや外部専門家との脆弱性テストを通じて、選挙・子ども・医療・金融など分野ごとのリスクに対応。モデル訓練では自傷・違法行為・有害コード生成などを防ぐための微調整や専門家協力を重視し、リリース前には安全性・リスク・バイアス評価を徹底。運用時は自動・人手の両面で違反検知・応答制御・アカウント対策を行い、脅威インテリジェンスや集約的な行動分析も活用している。今後も外部との連携やバグ報奨金制度を通じて防御体制を強化する方針。

Hugging Face⁠TRLでVLM(視覚言語モデル)アライメント手法を拡充

Hugging Faceは2025年8月7日、TRLライブラリにおけるVLM(視覚言語モデル)向けの新たなアライメント手法を発表した。

従来のSFTやDPOに加え、MPO(Mixed Preference Optimization⁠⁠、GRPO(Group Relative Policy Optimization⁠⁠、GSPO(Group Sequence Policy Optimization)など複数の新手法を追加。これにより、VLMの人間らしい応答や推論能力の向上、より多様なデータへの適応が可能となる。各手法のトレーニングスクリプトやデモノートブックも公開され、vLLMとの統合や標準API対応も進んでいる。

LiveMCPBench⁠MCPツール群を横断するエージェント能力ベンチマーク登場

中国科学院ソフトウェア研究所らが2025年8月、MCP(Model Context Protocol)ツール群を横断的に扱う大規模エージェントベンチマーク「LiveMCPBench」を公開した。

LiveMCPBenchは、10,000超のMCPサーバーが存在する現状を踏まえ、70サーバー・527ツール・95タスクから成る現実的なMCP環境でLLMエージェントの能力を評価する初の統一ベンチマーク。自動評価フレームワーク「LiveMCPBenchEval」や、動的計画・API実行を担う「MCP Copilot Agent」も実装されている。評価ではClaude-Sonnet-4が78.95%の成功率で最高性能を示したが、モデル間のばらつきも大きい。論文・コード・データ・リーダーボードも公開され、今後のエージェント研究の基盤となる。

NVIDIA VLM Dataset V1⁠300万件の視覚言語データセット公開

NVIDIAが2025年8月11日、OCR・VQA・キャプショニング向けの大規模視覚言語データセット「Llama Nemotron VLM Dataset V1」を公開した。

本データセットは、VQA(67%⁠⁠、OCR(28.4%⁠⁠、画像キャプション(4.6%)の3カテゴリで構成され、企業向けAI開発や高精度な文書理解・画像解析に最適。既存データの再注釈や合成データ生成、詳細な説明・ルールベースQA拡張など多様な手法で高品質化。商用利用も可能で、Hugging Faceから無償ダウンロードできる。ライセンスや利用例、技術詳細は公式ブログ・論文参照。

PyTorch ExecuTorchとKleidiAI⁠Armデバイス最適化生成AI

PyTorch、Arm、Metaは2025年8月11日、ExecuTorch 0.7とKleidiAIによるArm CPU向け生成AI最適化を発表した。

ExecuTorch 0.7とKleidiAIは、SDOT命令やI8MMなどArm CPUの最新機能を活用し、Llama 3.2などの大規模言語モデルを3~5年前のスマートフォンやRaspberry Pi 5でも高速・省メモリで動作させる。これにより、プライバシー重視の音声アシスタントやローカルAIコーディング支援、エッジAIアプリなど、クラウド不要の多様なGenAI体験が一般ユーザーにも広がる。開発者向けには詳細なドキュメントやチュートリアル、最適化済みのリファレンス実装も提供されており、今後は他のAIモデルやデバイスへの展開も計画されている。

研究動向

Google Research⁠高品質ラベルで学習データを1/200以下に削減する新手法

Google Researchが2025年8月7日、大規模言語モデル(LLM)のファインチューニングに必要な高品質トレーニングデータを従来の10万件から500件未満にまで削減できる新たなアクティブラーニング手法を発表した。

Google Researchは、広告の安全性判定など複雑な分類タスクにおいて、ゼロショットまたは少数ショットの初期LLMによるラベル付けとクラスタリング、専門家による意見収集を繰り返すアクティブラーニング手法を開発した。最も情報価値の高いサンプルを効率的に選定し、専門家の評価とモデルの整合性(Cohen's Kappa)を最大65%向上。実験では、従来10万件必要だったトレーニングデータを500件未満に削減しつつ、より高いモデル性能を実現した。特に大規模モデルでは4桁のデータ削減効果も確認されており、今後の高品質データ活用や迅速なモデル更新に寄与する技術として注目される。評価指標にはCohen's Kappaを用い、専門家間の合意度やモデル-専門家間の整合性を重視している。

Dion⁠分散直交正規化アップデートの新潮流

Microsoftが2025年8月12日、分散直交正規化アップデート手法「Dion」のオープンソース公開を発表した。

Dionは大規模AIモデルの学習効率を飛躍的に高める新しい最適化手法。従来のMuonと比べ、低ランク直交化による通信・計算コスト削減と、誤差フィードバックによる精度維持を両立。特にLLaMA-3のような巨大モデルでも、ランクを1/16や1/64まで落としても性能を維持しつつ、学習時間を大幅短縮できる。PyTorch FSDP2やテンソル並列にも対応し、pipで簡単に導入可能。公式ブログでは理論背景や実験グラフ、コード例、関連論文も紹介されている。ライセンスはオープンソース(詳細はGitHub参照⁠⁠。

自己進化型AIエージェント⁠最新動向の包括的整理

Jinyuan Fang氏らが2025年8月10日、⁠A Comprehensive Survey of Self-Evolving AI Agents」で自己進化型AIエージェントの最新動向を体系的に整理した。

自己進化型エージェントは、環境との相互作用を通じて自律的に内部構造や行動方針を最適化し、タスクやリソースの変化に柔軟に適応するAIシステム。論文では「三原則」や統一的な概念フレームワークを提案し、基盤モデル・プロンプト・メモリ・ツール・ワークフロー・評価・安全性・倫理など多角的に進化戦略をレビュー。今後の課題や応用分野として、長期学習・自律ロボット・パーソナルAI・産業応用なども展望されている。

R-Zero⁠ゼロデータから自己進化する推論LLMフレームワーク

Chengsong Huang氏らが2025年8月7日、自己進化型LLMフレームワーク「R-Zero」を発表した。

R-Zeroは、人手によるタスクやラベルを一切使わず、LLM自身が自律的にトレーニングデータを生成・学習し続ける新しい推論強化フレームワークである。1つのベースLLMから「Challenger」「Solver」という2つの役割を持つモデルを独立に初期化し、ChallengerがSolverの限界を突く課題を生成、Solverはそれを解決することで両者が相互進化する。これにより、既存のSFTやRL手法の限界を突破し、Qwen3-4B-Baseなど複数のLLMで数学・一般推論ベンチマークのスコアを大幅に向上させた。コードはPythonでMITライセンス、pip install -r requirements.txtで導入できる。

Memp: Exploring Agent Procedural Memory

Runnan Fang氏らが2025年8月8日、エージェントの手続き記憶に関する新手法「Memp」を発表した。

Mempは、AIエージェントが過去の行動履歴から詳細な手順や抽象的なスクリプトを抽出し、手続き記憶として学習・更新する枠組みである。TravelPlannerやALFWorldなどのタスクで実験を行い、記憶の洗練によりタスク成功率と効率が向上することを示した。強いモデルで構築した記憶を弱いモデルに移植しても性能向上が見られ、エージェントの長期的な適応力や汎用性の向上に寄与する。今後のエージェント研究や実用化に向けた基盤技術として注目される。

Dynamic Fine-Tuning(DFT)SFTの汎化性能を強化する新手法

Yongliang Wu氏らが2025年8月8日、LLMの汎化性能を大幅に高める「Dynamic Fine-Tuning(DFT⁠⁠」を発表した。

DFTは、従来のSupervised Fine-Tuning(SFT)が持つ汎化性能の限界を理論的に分析し、各トークンの損失をその予測確率で動的にスケーリングする1行の改良で、SFTを大幅に強化する手法である。これにより、複数のベンチマークやベースモデルで従来SFTを大きく上回る精度を達成し、オフライン強化学習(RL)設定でも競争力を示した。論文ではSFTとRLの理論的関係も明らかにし、DFTの実装コードはGitHubで公開予定。LLMの汎化や安定性向上に関心のある研究者・開発者に有用。

Voost⁠バーチャル試着AIの新手法

Seungyong Lee氏らが2025年8月6日、バーチャル試着を高精度に実現する新しいAIフレームワーク「Voost」を発表した。

Voostは、Diffusion Transformerを用いてバーチャル試着タスクを高精度に学習・実現する統合型AIモデル。従来は複数ネットワークや追加ラベルが必要だったが、Voostは単一モデルで多様なポーズ・衣服・背景に対応し、ベンチマークで最先端の精度を達成。ファッション分野やECサイトでの応用が期待される。

その他

Grok⁠X投稿の自動翻訳機能を米国全ユーザーに提供

Elon Musk氏と保立怜氏が2025年8月13日、GrokによるX投稿の自動翻訳機能を米国の全ユーザー向けに提供したことを案内した。

これにより、X上の投稿は日本語を含む多言語の投稿がGrokによって英語に変換されて表示され、X上で言語の壁を越えたコミュニケーションが可能となるという。

Google検索⁠Top Stories⁠優先ソース選択機能

Googleが2025年8月12日、Top Storiesで表示する優先ソースを選べる機能を導入した。

この機能は、Google検索結果のTop Storiesで好みの配信元を優先表示する仕組みで、検索結果のTop Storiesヘッダー横のアイコンからソースを選択すると、選択したサイトの記事がTop Stories内のカルーセルや専用セクションによりより目立つ形で表示される場合があると説明している。パブリッシャー向けのヘルプページでは、サイトに埋め込める⁠Add as a preferred source⁠ボタンやディープリンクの利用法を案内している。

おすすめ記事

記事・ニュース一覧