gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近の興味深いAIに関連するニュース概要を簡単にまとめてみました。
※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。
政策・社会動向
EU AI Act:General-Purpose AIモデル規則の適用開始
European Commissionは2025年8月2日、EU AI Actに基づくGeneral-Purpose AI(GPAI)モデル提供者への義務がEU全域で適用開始されたと発表した。
この日以降、EU市場に投入されるGPAIモデル(1023FLOP超で言語生成が可能なモデル)は、AI Actに基づく透明性や著作権に関する義務を順守する必要がある。2025年8月2日以前に市場投入されたモデルも、2027年8月2日までに対応が求められる。さらに、systemic risks(1025FLOP超)のある最先端モデルには、European Commissionへの通知や安全性・セキュリティ確保など追加義務が課される。European Commissionは、GPAIモデル提供者向けのガイドラインやデータ要約テンプレートも公開している。任意のGPAI Code of Practiceに署名・遵守することで、法的負担の軽減や法的確実性の向上も可能である。詳細な情報はサイトで案内されている。
AIエージェント時代の新たな倫理枠組みの必要性
Google DeepMindが2025年8月4日、AIエージェントの社会実装に伴う新たな倫理枠組みの必要性をNature誌で提言した。
記事では、AIエージェントが自律的に現実世界で行動する時代において、従来の倫理や責任の枠組みでは不十分であると指摘。AIが複雑な意思決定や経済活動、科学研究支援などに活用される一方、誤作動や責任所在の曖昧さ、社会的影響など新たなリスクも生じる。著者らは、科学者・技術者・政策立案者が連携し、AIエージェントの安全性・説明責任・社会的調和を確保するための新しい倫理原則とルール作りが急務であると提言している。
Developers, Reinvented:AI時代の開発者像の再発明
Thomas Dohmke氏が2025年8月3日、AI時代の開発者像の変化を考察した記事「Developers, Reinvented」を公開した。
AIの進化により、開発者の役割は「コードを書く人」から「AIエージェントを活用し、設計・検証・指示を行う人」へと大きく変化している。記事では、AIツール導入初期の懐疑から、実験・協働・戦略的活用へと進化する4段階の開発者像を紹介。AIとの協働には、AIリテラシーや委任・検証・システム設計・品質管理・プロダクト思考など新旧のスキルが求められる。今後は「コード生産者」から「コードの創造的ディレクター」への転換が進み、教育現場でもAI活用を前提としたカリキュラム改革が必要とされる。AIによる自動化が進む一方で、開発者の価値は「AIを使いこなす力」にシフトしつつある。
Google AI Pro:学生向けAIツール無償提供と1億ドル規模の教育支援
Googleが2025年8月6日、米国などの大学生向けに「Google AI Pro」プランの12カ月無償提供と、AI教育・研究支援のための10億ドル投資を発表した。
Google AI Proプランは、Gemini 2.5 ProやNotebookLM、Veo 3、Julesなど最先端AIツールを学生に無償提供するもの。米国・日本などの大学生(18歳以上)は2025年10月6日までに申し込むと1年間無料で利用でき、2TBストレージや高度なリサーチ機能、AIコーディング支援などが含まれる。加えて、米国の高等教育機関向けにAIリテラシー・研究・クラウドリソース支援として10億ドルを3年間で拠出。Google AI for Education AcceleratorやCareer Certificatesも無償提供し、教育現場でのAI活用を推進する。
サービス・アプリケーション
Jules:非同期AIコーディングエージェントの正式公開
Googleが2025年8月6日、非同期AIコーディングエージェント「Jules」を正式公開した。
Julesは、Gemini 2.5 Proを活用したAIコーディングエージェントで、タスクごとに最適なコーディングプランを自動生成し、バグ修正や新機能追加を非同期で実行できる。ベータ期間中のフィードバックをもとにUIや機能を強化し、セットアップ再利用やGitHub連携、マルチモーダル対応も実現。Google AI Pro/Ultraプランでは利用上限が大幅拡大され、学生向け無償提供も開始。jules.google
から即利用可能で、今後も多エージェント連携や新機能拡張が予定されている。
ChatGPT最適化の目的と最新の改善
OpenAIが2025年8月4日、ChatGPTの最適化方針と直近の改善内容を公式ブログで解説した。
ChatGPTは、ユーザーが成長しながら新しいことを学び、課題を解決できるよう設計されている。2025年のアップデートでは、ユーザーの現実的な成功体験を重視し、単なる「耳障りの良い回答」や過度な同調を避けるための調整が行われた。特に精神的・感情的なサポートが必要な場面では、ユーザーの意思決定を促すガイダンスや、専門家との連携によるカスタム評価基準の導入が進められている。今後もユーザーの利用頻度や満足度を指標に、パーソナライズや新機能の追加、長期的なサブスクリプションの促進を図る方針。安全性やプライバシーにも配慮し、医療・教育・ビジネスなど多様な分野での活用を見据えている。
Guided Learning:Gemini搭載の対話型学習モード
Googleが2025年8月6日、Geminiに対話型学習モード「Guided Learning」を追加した。
Guided Learningは、Gemini上で質問や課題を段階的に分解し、対話を通じて深い理解を促す新モード。単なる答え提示ではなく、オープンな問いかけやマルチモーダルな解説(画像・動画・クイズ等)を組み合わせ、学習者の思考を活性化する。教育・認知科学の専門家と連携し、学習科学の知見をモデルに反映。Google Classroom等での共有も容易で、教師・生徒双方の能動的な学びを支援する。LearnLM技術を活用し、個々の理解度やペースに合わせた柔軟な学習体験を実現する。
Geminiストーリーブック:AI生成の個人向け絵本作成機能
Googleが2025年8月5日、GeminiアプリでAI生成のパーソナライズ絵本作成機能を追加した。
Geminiアプリのストーリーブック機能は、ユーザーが物語をテキストで入力するだけで、AIが10ページ構成の絵本を自動生成し、イラストや音声ナレーションも付与する。写真やファイルをアップロードして個人の思い出を物語化したり、45言語以上・多様なスタイル(ピクセルアート、コミック、クロシェ、塗り絵等)で出力できる。子ども向けの学習や家族の思い出整理、創作活動など幅広い用途に対応し、デスクトップ・モバイルの両方で利用可能。
NotebookLM:13歳以上の消費者向けに提供開始
Googleは2025年8月4日、学習支援AI「NotebookLM」を消費者向けに13歳以上で利用可能とした(従来は未成年利用不可)。
これにより、Google Workspace for Educationに加え、一般消費者も13歳以上(国によって異なる場合あり)でNotebookLMを利用できるようになった。
Figma, Design systems and AI:MCPサーバーで実現するデザインとAIの連携強化
Figmaが2025年8月6日、デザインシステムとAIエージェントの連携を強化する「Dev Mode MCPサーバー」の活用法を解説した。
デザインシステムは、色・タイポグラフィ・コンポーネントなどの一貫性を担保し、AIエージェントによるコード生成やUI設計の品質・効率を大幅に向上させる基盤である。FigmaのDev Mode MCPサーバーは、デザインの文脈や変数・スタイル情報をAIに提供し、既存コンポーネントの再利用やデザインルールの自動適用、設計とコードの整合性監査などを実現。自動ルール生成やデザイントークンの活用、プロップ整合性の提案など、AIとデザインシステムの相互強化による生産性向上が期待される。今後はMCPサーバーを活用したワークフローの進化が見込まれる。
Kineto:ノーコードでWebアプリを作れるAIプラットフォーム
JetBrainsが2025年8月5日、ノーコードでWebアプリを作成できるAIプラットフォーム「Kineto」のアーリーアクセスを開始した。
Kinetoは、テキストによるプロンプト入力だけでWebアプリやサイトを自動生成できるAIプラットフォーム。ユーザーはアプリの要件やデザインイメージを文章で入力するだけで、UI・バックエンド・DBを含むプロトタイプが約20分で生成される。Meta Layerモードで機能やルールの微調整も可能。生成後はデザインや機能追加、AIイラストの埋め込みもでき、完成したアプリは即公開・共有可能。アーリーアクセスはノーコード志向のユーザーを優先し、選抜者にはチームのサポートも提供される。今後はより複雑なアプリやホスティング機能も拡充予定。
Jenova:MCPのために構築された初のAIエージェント
Azeroth Inc.が2025年、Model Context Protocol(MCP)エコシステム向けに設計されたAIエージェント「Jenova」を公開した。
Jenovaは、GmailやGoogleカレンダー、Jiraなど多様なMCPサーバーと簡単に統合できるAIエージェント。OAuth認証やカスタム指示機能、スケーラブルなマルチエージェントアーキテクチャを備え、デスクトップ・モバイル問わず利用可能。ユーザーは好みに応じて各サーバーの設定を細かくカスタマイズでき、複数のMCPサーバーやツールを同時に管理・連携できる。内部では高信頼・高効率なタスク実行や、数百のツール同時管理、パフォーマンス維持のための最適化が施されている。今後はより多様なMCPサーバーやAIモデルとの連携拡大が予定されている。
MCP Chat:10,000以上のツールと連携できるAIチャットプラットフォーム
Pipedreamが2025年8月1日、10,000以上のツールと連携可能なAIチャット「MCP Chat」をオープンソースで公開した。
MCP Chatは、Pipedream ConnectとVercelのAI SDKを活用し、2800以上のAPI・10,000超のツールに直接アクセスできるAIチャットプラットフォーム。ユーザーは「最近のメール要約」「Google Driveの最新スクリーンショットをSlackに送信」など自然言語で多様なタスクを指示できる。MCPサーバーのリモート利用やOpenAI Responses APIとの連携、公式SDKやサンプルコードも充実。全機能はMITライセンスで公開され、開発者は自社AIアプリへの組み込みやカスタマイズも容易。今後はConnect API Proxyやワークフロー自動化、より多様な統合機能の拡充が予定されている。
GitHub Copilot coding agent:リポジトリごとのカスタム指示自動生成機能
GitHubが2025年8月6日、Copilot coding agentのカスタム指示自動生成機能を公開した。
Copilot coding agentは、GitHub.comや主要IDE、CLI、MCPサーバー等と連携し、リポジトリごとのカスタム指示(custom instructions)を自動生成できる機能を提供する。Copilot Pro/Pro+やBusiness/Enterpriseユーザー向けで、初回のプルリクエスト作成時に自動でコメントと生成リンクを付与し、推奨プロンプトで随時生成も可能。プロジェクトごとのビルド・テスト・バリデーション手順を明示し、より高品質なプルリクエスト作成を支援する。公式ドキュメントや管理者向けポリシー設定も用意されている。
GitHub Copilot code review:copilot-instruction.mdカスタマイズが正式一般提供
GitHubが2025年8月6日、Copilot code reviewのカスタマイズ機能「copilot-instruction.md」正式提供を開始した。
Copilot code reviewは、リポジトリにcopilot-instruction.md
ファイルを追加することで、レビュー時のCopilotの動作を自然言語で柔軟にカスタマイズできる機能。2025年6月のパブリックプレビューを経て、全ユーザーが利用可能となった。従来の一律的なレビューから、プロジェクトごとのワークフローやルールに即した指示を反映でき、開発現場の多様なニーズに対応する。今後もユーザーからのフィードバックをもとに機能拡張が予定されている。
開発・開発ツール
Crush:ターミナル特化型AIコーディングエージェント
Charmbraceletが2025年7月30日、ターミナル特化型AIコーディングエージェント「Crush」を発表した。
Crushは、LLMとCLIツールの連携に特化したAIコーディングエージェント。多様なLLM(OpenAI/Anthropic互換API含む)を切り替えつつ、LSPやMCPサーバー連携、複数セッション管理、ターミナルからの直接操作などをサポート。主要OSのターミナルで動作し、brew install charmbracelet/tap/crush
やnpm install -g @charmland/crush
など多様な方法で導入可能。設定ファイルや環境変数による柔軟なカスタマイズ、.gitignore/.crushignore対応、APIキー管理、ローカル/クラウドモデル連携など、現代的な開発ワークフローに最適化されている。MIT/FSL-1.1ライセンスで公開。
セキュアかつスケーラブルなリモートMCPサーバー構築ガイド
GitHubが2025年7月25日、AIエージェント向けMCPサーバーのセキュリティとスケーラビリティに関する実践ガイドを公開した。
MCPサーバーはAIエージェントと多様なデータソースを橋渡しするため、従来API以上に厳格なセキュリティ対策が求められる。ガイドでは、OAuth 2.1準拠の認可フローや動的クライアント登録、リソースインジケータによるトークンの適切なスコープ管理、マルチユーザー環境でのデータ分離、AIゲートウェイによるレート制限・JWT検証・セキュリティヘッダー付与などの実装パターンを解説。シークレット管理にはクラウドのKey VaultやHashiCorp Vault等の利用を推奨し、監視・可観測性のための分散トレーシングやアラート設定も重要視されている。MCP SDKの活用やクラウド基盤との連携により、堅牢かつ拡張性の高いMCPサーバー構築が可能となる。
Claude Code Security Reviewer:AIによるPRセキュリティレビューGitHub Action
Anthropicが2025年8月、AIによるセキュリティレビューを自動化するGitHub Action「Claude Code Security Reviewer」を公開した。
Claude Code Security Reviewerは、Anthropic Claudeを活用し、プルリクエストの差分をAIが自動でセキュリティ分析するGitHub Action。コードの意味や意図を理解し、脆弱性やリスクを検出、詳細な説明や修正案をPRコメントとして自動投稿する。PRごとに変更ファイルのみを分析し、誤検知を抑制する高度なフィルタリングも搭載。主要な脆弱性(インジェクション、認証・認可、データ漏洩、暗号化、入力検証、ビジネスロジック、設定ミス、サプライチェーン等)に対応し、組織ごとのカスタマイズも可能。MITライセンスで公開され、ローカル実行やカスタムスキャン設定にも対応する。
Cursor 1.4:エージェント操作性・可視化・GitHub連携強化
Cursorが2025年8月6日、AIエージェントの操作性・可視化・GitHub連携を強化したバージョン1.4をリリースした。
新バージョンでは、エージェントへの指示送信タイミングの最適化や、複数モデルのタブごとの割り当て、使用量の可視化、コンパクトチャットモード、GitHubプルリクエスト内でのエージェント利用、サイドバーでのエージェント管理、バックグラウンドエージェントの高速起動などを実現。大規模コードベースでのファイル/ディレクトリ操作やgrep・検索の精度向上、Web検索の応答最適化も図られている。エンタープライズ向けにはチーム単位の使用量管理や、今後の機能拡張も予定。
Open SWE:LangGraphベースのオープンソース非同期コーディングエージェント
LangChainが2025年8月、LangGraphベースのオープンソース非同期コーディングエージェント「Open SWE」を公開した。
Open SWEは、クラウド上で動作する非同期型のAIコーディングエージェント。コードベースの理解・計画・実装・プルリク作成までを自律的に実行し、GitHub IssueやWeb UIからタスクを管理できる。人間のフィードバックを受けながら計画・実装を進める「Human in the loop」や、複数タスクの並列実行、サンドボックス環境での安全な動作、MITライセンスでの公開などが特徴。デモやドキュメントも充実しており、エンタープライズ用途や大規模開発にも対応する。
v0:AI時代のセキュアな高速アプリ開発基盤
Vercelが2025年8月4日、AI生成コードのセキュリティを重視した開発基盤「v0」の最新動向を解説した。
v0は、AIによる高速なアプリ開発を支えるプラットフォームで、公開環境変数NEXT_PUBLIC_
の誤用やハードコードされたシークレット、入力サニタイズ漏れ、環境分離不足などAI生成コード特有の脆弱性を自動検出・ブロックする。2025年7月だけで1.7万件超の危険なデプロイを阻止し、Vercel AI Gatewayやファイアウォール、AES-256暗号化、SOC2/ISO 27001等の認証も備える。デプロイ時のプレビュー保護やアクセス制御、監査ログも標準搭載し、AI時代の開発における「セキュア・バイ・デフォルト」を実現する。
AI SDK 5:型安全なチャット・エージェント制御・音声対応のAIアプリ開発フレームワーク
Vercelが2025年7月31日、TypeScript/JavaScript向けAIアプリ開発フレームワーク「AI SDK 5」をリリースした。
AI SDK 5は、型安全なチャットUI統合、エージェントループ制御、音声生成・認識、ツール呼び出しの型安全化、V2仕様対応などを特徴とする。React/Vue/Svelte/Angularに対応し、UIMessage型による全履歴の型安全管理や、データパーツによるストリーミング、ツールの動的定義・プロバイダ実行、SSE標準化、グローバルプロバイダ設定などを実現。zod
によるスキーマ検証や、npx @ai-sdk/codemod upgrade
による自動移行もサポート。オープンソースで提供され、AIアプリ開発の生産性と安全性を大幅に向上させる。
Vercel MCP:AIツールとVercelを安全に接続する新サーバー
Vercelが2025年8月6日、AIツールとVercelアカウントを安全に接続する「Vercel MCP」サーバーのパブリックベータを開始した。
Vercel MCPは、Model Context Provider(MCP)サーバーとして、AIクライアントからVercelのドキュメント検索やデプロイログ取得、チーム・プロジェクト情報の取得などを安全に実行できる。OAuth認証やクライアント許可リスト、読み取り専用設計などセキュリティを重視し、ClaudeやVS Codeなど主要AIクライアントと連携可能。今後は書き込み機能や対応クライアントの拡大も予定されている。MCPサーバーの構築・拡張も推奨されており、AI時代の開発基盤として注目される。
RAGLight:軽量・拡張性重視のPython製RAGライブラリ
Bessouat40氏が2025年8月、軽量かつ拡張性に優れたPython製RAG(Retrieval-Augmented Generation)ライブラリ「RAGLight」を公開した。
RAGLightは、OllamaやLMStudio、vLLM、OpenAI API、Mistral APIなど多様なLLM・埋め込みモデル・ベクトルストアに対応したRAG実装ライブラリである。CLIウィザードによる対話的なセットアップや、pip install raglight
での簡単導入、Docker対応、柔軟なパイプライン構成、PDFやTXTなど多様なドキュメント形式の取り込みが特徴。MITライセンスで公開され、エージェント型RAGやRATパイプライン、カスタム拡張も可能。最新バージョン2.2.1では機能追加や安定性向上が図られている。
Cipher:AIコーディングエージェント向けメモリレイヤー
campfireinが2025年7月30日、AIコーディングエージェント向けのメモリレイヤー「Cipher」バージョン0.2.0をリリースした。
Cipherは、CursorやClaude Desktop、Gemini CLI、VS Codeなど多様なIDEやAIエージェントと連携可能なオープンソースのメモリレイヤーである。新バージョンではGoogle GeminiやAlibaba Qwen、OllamaなどのLLM・埋め込みプロバイダ対応、PostgreSQLによる永続化、プロンプトプロバイダ機能、MCP Aggregatorモード、トークン管理・圧縮機能などが追加された。CLIやDocker、MCPサーバーモードでの運用が可能で、Elastic License 2.0で公開されている。
Memory in Agents:LLMエージェントの記憶と文脈エンジニアリング
Philipp Schmid氏が2025年8月4日、LLMエージェントにおける「記憶(メモリ)」の設計と課題について解説した記事を公開した。
LLMエージェントは本来「無記憶(stateless)」であり、過去のやりとりやユーザーの好みを保持できない。記事では、短期記憶(コンテキストウィンドウ)と長期記憶(外部ストレージ)の役割や、明示的・暗黙的なメモリ更新手法、関連性・肥大化・忘却戦略などの課題を整理。LangGraphやMem0、Zepなどのツールを活用したメモリ実装例や、パーソナライズ・継続性・効率化・複雑な推論への応用可能性を紹介している。今後は「より大きなストレージ」だけでなく「より賢い記憶管理」が重要となり、エージェントの性能やユーザー体験の向上に直結する分野として注目される。
モデル・基盤技術
Claude Opus 4.1:コーディング・推論性能を強化した最新AIモデル
Anthropicが2025年8月5日、AIモデル「Claude Opus 4.1」をリリースした。
Claude Opus 4.1は、SWE-bench Verifiedで74.5%のコーディング性能を達成し、マルチファイルリファクタリングや大規模コードベースでの精密な修正能力が向上した最新AIモデル。従来比で推論・データ分析・エージェント的タスクの精度が大幅に向上し、Rakuten GroupやWindsurfなどの企業ベンチマークでも高評価を獲得。APIやClaude Code、Amazon Bedrock、Google Cloud Vertex AI経由で利用可能で、料金は従来モデルと同等。今後もさらなる大規模アップデートが予定されている。
Gemini 2.5 Deep Think:並列思考で創造的問題解決を実現
Googleが2025年8月1日、Geminiアプリ向けに「Gemini 2.5 Deep Think」機能を提供開始した。
Gemini 2.5 Deep Thinkは、複雑な課題に対して並列的に多様な仮説やアイデアを同時生成し、最適解を導く「並列思考」技術を搭載したAI機能である。推論時間を拡張し、複数の解決策を同時に検討・統合することで、創造的かつ戦略的な問題解決を実現。Web開発や科学・数学分野の難問、アルゴリズム設計などで高い性能を発揮し、LiveCodeBench V6やHumanity's Last Examなどのベンチマークでも最先端の成績を記録。安全性や客観性も強化されており、Google AI UltraプランのGeminiアプリで利用可能。今後はAPI経由での提供や開発者向けの拡張も予定されている。
Genie 3:多様なインタラクティブ環境を生成する世界モデル
Google DeepMindが2025年8月5日、テキストプロンプトから多様なインタラクティブ環境を生成できる世界モデル「Genie 3」を発表した。
Genie 3は、テキストプロンプトからリアルタイムで動的な仮想世界を生成し、ユーザーが24fps・720pの高解像度で数分間ナビゲートできる世界モデル。物理現象や生態系、アニメーション、歴史的な場所など多様な環境を一貫性を保ちながら生成し、ユーザーの操作やテキストによるイベント追加にも即応する。従来のGenie 1/2やVeoシリーズの成果を踏まえ、長時間の環境一貫性やリアルタイム性を大幅に向上。SIMAエージェントとの連携実験では、複雑な目標達成や長期的な行動計画も可能となった。現時点ではアクション範囲や複数エージェントの同時シミュレーション、地理的精度などに制約があるが、今後は教育・訓練・ロボット学習など幅広い応用が期待される。責任ある開発のため、限定的なリサーチプレビューとして学術・クリエイター向けに先行公開されている。
FLUX.1 Krea [dev]:独自美学と高リアリズムのテキスト画像生成モデル
Black Forest Labsが2025年7月31日、テキスト画像生成モデル「FLUX.1 Krea [dev]」を公開した。
FLUX.1 Krea [dev]は、Krea AIと共同開発されたオープンウェイトのテキスト画像生成モデルである。従来の「AIらしさ」や過度な彩度を抑え、独自の美学と高い写実性を両立。人間評価でも従来のオープンモデルを上回り、商用モデルFLUX1.1 [pro]と同等の評価を獲得。カスタマイズ性や下流タスクへの適応性も高く、APIやHugging Face経由での利用、商用ライセンスも提供されている。今後は基盤モデルと応用AIラボの連携によるさらなる進化が期待される。
Qwen3-Coder-30B-A3B-Instruct:大規模エージェントコーディング特化型LLM
Qwenチームが2025年7月、Qwen3-Coder-30B-A3B-Instructを公開した。
Qwen3-Coder-30B-A3B-Instructは、30.5Bパラメータの因果言語モデルで、エージェント的コーディングや長文コンテキスト(最大256Kトークン、Yarn利用で100万トークン拡張)に対応する。Qwen CodeやCLINEなど多様なプラットフォームでのツール呼び出しをサポートし、独自の関数呼び出しフォーマットを備える。推論時のパフォーマンスや効率性も高く、OllamaやLMStudio、MLX-LM、llama.cppなど主要なローカル実行環境やOpenAI互換APIで利用可能。transformers
最新版推奨で、サンプルコードも公式で提供されている。Apache-2.0ライセンスで公開。
Qwen3-4B-Instruct/Thinking-2507:4Bパラメータの長文・推論特化モデル
Qwenチームが2025年7月、Qwen3-4B-Instruct-2507およびQwen3-4B-Thinking-2507を公開した。
Qwen3-4B-Instruct-2507は、4Bパラメータの因果言語モデルで、命令追従・論理推論・多言語対応・長文理解(256Kトークン)などに強みを持つ。Qwen3-4B-Thinking-2507は推論モードを強化し、数学・科学・コーディング・学術ベンチマークで高い性能を示す。いずれもApache-2.0ライセンスで公開され、OllamaやLMStudioなど主要なローカル実行環境やOpenAI互換APIで利用可能。Qwen-Agentによるツール連携やMCP設定にも対応し、研究・開発用途での活用が期待される。
Step3:大規模・高効率なマルチモーダル推論モデル
StepFunが2025年7月31日、Mixture-of-Expertsアーキテクチャを採用した大規模マルチモーダル推論モデル「Step3」を発表した。
Step3は、総パラメータ321B・アクティブ38BのMixture-of-Experts構造を持つ最先端のマルチモーダル推論モデルである。独自のMulti-Matrix Factorization Attention(MFA)とAttention-FFN Disaggregation(AFD)により、推論時のコストを大幅に削減しつつ、視覚・言語推論で高い性能を発揮する。事前学習では20兆トークン超のテキストと4兆の画像テキスト混合データを用い、多段階のデータクリーニングや専門モデルによる品質評価を実施。推論時は最大800Kトークンの長文コンテキストに対応し、独自の通信ライブラリStepMeshで高効率な分散推論を実現。既存のDeepSeek-V3やQwen3 MoE 235Bと比較してもコスト効率で優位性があり、今後はさらなる最適化や既知課題の解決が進められる。
Cogito v2 Preview:自己改善型ハイブリッド推論モデルの大規模オープンリリース
Deep Cogitoが2025年7月31日、自己改善型ハイブリッド推論モデル「Cogito v2」シリーズをプレビュー公開した。
Cogito v2は、70B/109B/405B/671Bパラメータの4モデル(うち2つはMoE)をオープンライセンスで公開。最大671B MoEモデルはDeepSeek v3/R1に匹敵し、推論チェーンを60%短縮しつつ高精度を実現。Iterated Distillation and Amplification(IDA)による自己改善を重視し、推論過程をモデルパラメータに内在化する新たなスケーリング手法を採用。推論・非推論モード両対応で、画像推論も転移学習で実現。全モデルはHugging Face等で配布され、今後さらなるスケールアップとオープンソース化が予定されている。
Command A Vision:ビジネス向けマルチモーダルAI
Cohereが2025年7月31日、ビジネス用途に特化したマルチモーダルAI「Command A Vision」を発表した。
Command A Visionは、画像理解タスクに強みを持つエンタープライズ向けマルチモーダルAIである。低い計算コストで高精度な画像解析を実現し、企業の多様な業務ニーズに対応。APIや各種ソリューションとの連携も可能で、Cohereの他製品(North、Compass、Embed等)と組み合わせた活用も想定されている。2025年7月時点で詳細な技術仕様やベンチマークは未公開だが、今後のアップデートや事例紹介が期待される。
dots.ocr:多言語対応の単一ビジョン・ランゲージモデルによる文書レイアウト解析
rednote-hilabが2025年7月30日、1.7Bパラメータの多言語文書解析モデル「dots.ocr」を公開した。
dots.ocrは、レイアウト検出と内容認識を単一のビジョン・ランゲージモデルで統合し、英語・中国語を含む100言語以上の文書解析に対応。OmniDocBenchや独自ベンチマークでSOTA性能を達成し、数式・表・読み順の認識精度も高い。1.7Bパラメータの小型LLM基盤により、従来の複雑な多段パイプラインを不要とし、プロンプト切り替えで多様なタスクに対応。conda
やpip install -e .
で簡単に導入でき、vLLMやHugging Face経由での推論・デモも可能。現状は高難度の表・数式や画像内の内容解析に課題が残るが、今後は汎用的なVLMへの拡張やOCR精度向上が計画されている。MITライセンスで公開。
olmOCR-7B-0725-FP8:高精度・高速なオープンソース文書認識モデル
Allen Institute for AIが2025年7月24日、オープンソースの文書認識モデル「olmOCR-7B-0725-FP8」を公開した。
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-InstructをベースにFP8量子化を施した7Bパラメータのビジョン・ランゲージモデルで、PDFや画像ベースの文書を高精度かつ高速にテキスト化できる。公式ツールキットolmocr
を使うことで、数百万件規模の文書を効率的にMarkdownへ変換可能。数式・表・手書き・複雑なレイアウトにも対応し、olmOCR-Benchで高いスコアを記録。DockerやAWS S3連携、クラスタ運用もサポートし、Apache-2.0ライセンスで公開されている。
KittenTTS:超軽量・高品質なオープンソースTTSモデル
KittenMLが2025年8月、超軽量・高品質なテキスト読み上げモデル「KittenTTS」を公開した。
KittenTTSは、パラメータ数1,500万・モデルサイズ25MB未満の超軽量なオープンソースTTS(Text-to-Speech)モデル。CPU最適化によりGPU不要で動作し、複数の高品質な音声(男女・複数バリエーション)をリアルタイムで合成できる。pip install
で簡単に導入でき、from kittentts import KittenTTS
で即利用可能。音声合成結果はoutput.wav
として保存でき、推論速度も高速。MIT/Apache-2.0ライセンスで公開され、今後はモバイルSDKやWeb版のリリースも予定されている。
gpt-oss-pro-mode:オープンソースのGPT Proモード実装
Matt Shumer氏が2025年8月、オープンソースのGPT Proモード実装「gpt-oss-pro-mode」をGitHubで公開した。
gpt-oss-pro-modeは、Matt Shumerが開発したオープンソースのGPT Proモード実装である。Jupyter Notebook形式で提供されており、Google Colab上で実行することで、GPTのProモード相当の機能を体験できる。リポジトリにはサンプルノートブックやセットアップ手順が含まれ、ユーザーは自身のAPIキーを用いて高度なテキスト生成やカスタムプロンプトの利用が可能。MITライセンスで公開されており、今後の機能追加やコミュニティによる拡張も期待される。
Trackio:Hugging Face製の軽量実験トラッキングライブラリ
Hugging Faceが2025年7月29日、軽量な実験トラッキング用Pythonライブラリ「Trackio」を公開した。
Trackioは、機械学習モデルの学習過程でのメトリクスやパラメータ、ハイパーパラメータを記録・可視化できるオープンソースのPythonライブラリである。pip install trackio
で導入でき、ローカルダッシュボードやHugging Face Spacesとの連携、transformers
やaccelerate
とのネイティブ統合、wandb
互換APIなどが特徴。GPU消費電力や学習曲線の可視化、データのエクスポート・共有も容易で、コアコードは1000行未満と軽量。今後はアーティファクト管理や複雑な可視化機能の追加も予定されている。
Artificial Analysis Intelligence Benchmarking Methodology:LLM評価指標とベンチマーク手法の詳細解説
Artificial Analysisが2025年8月、LLMの評価指標とベンチマーク手法をまとめた「Artificial Analysis Intelligence Benchmarking Methodology」バージョン2.2を公開した。
本ドキュメントは、LLM(大規模言語モデル)の知識・推論・数学・コーディング能力を総合的に評価するための指標「Artificial Analysis Intelligence Index」と、その算出に用いる8種のベンチマーク手法を詳細に解説している。評価はMMLU-ProやHLE、GPQA Diamond、AIME 2025、SciCode、LiveCodeBenchなど多様なデータセットを用い、標準化・公平性・ゼロショット指示・透明性の4原則に基づいて実施。各ベンチマークの設問形式や採点基準、プロンプトテンプレート、エラー処理、評価環境(Ubuntu 22.04/Python 3.12)も明記されている。バージョン2.2では長文推論や新たな重み付け、最新データセットへの対応が追加された。
研究動向
Persona vectors:AIモデルの性格特性を制御する新手法
Anthropicが2025年8月1日、AIモデルの性格特性を制御・監視する「Persona vectors」手法を発表した。
Persona vectorsは、AIモデルの神経活動パターンから「邪悪さ」「お世辞」「幻覚」などの性格特性を抽出し、モデルの性格変化を監視・制御できる新技術である。特定の性格特性を持つ応答と持たない応答の神経活動の差分を「ベクトル」として抽出し、これをモデルに注入することで性格を意図的に変化させる「ステアリング」も可能。実験では、学習や運用中の性格変化の検出、望ましくない性格変化の抑制、問題のある学習データの特定など多様な応用例が示された。特に「予防的ステアリング」により、悪影響を及ぼすデータ学習時でもモデルの能力を損なわずに性格の健全性を維持できることが確認された。論文ではQwen 2.5-7B-InstructやLlama-3.1-8B-Instructでの実証も報告されている。
Simulating large systems with Regression Language Models:大規模システムの数値予測をLLMで実現
Google ResearchとGoogle DeepMindが2025年7月29日、Regression Language Model(RLM)による大規模システムの数値予測手法を発表した。
RLMは、複雑なシステム状態(YAMLやJSONで表現)から直接数値指標(例:MIPS per GCU)を予測するテキスト・ツー・テキスト回帰モデル。従来の特徴量設計や正規化を不要とし、少数ショットで新タスクに適応できる。Googleの大規模クラスタ管理基盤Borgの効率予測に適用し、密度推定や不確実性定量化、低コスト高精度な回帰を実現。8kトークン制限下でも重要特徴を優先的に活用し、分布全体の推定や信頼度の可視化も可能。オープンソースライブラリも公開され、今後はLLMの強化学習やシステムシミュレーションへの応用が期待される。
MLE-STAR:Web検索とコード分割最適化による最先端MLエージェント
Google Cloudが2025年8月1日、Web検索とターゲットコードブロック最適化を組み合わせたMLエンジニアリングエージェント「MLE-STAR」を発表した。
MLE-STARは、Web検索で最適なモデルを自動取得し、特徴量エンジニアリングやアンサンブル戦略など各パイプライン要素ごとに反復的な最適化を行うMLエージェント。デバッグ・データリーク・データ利用チェック機能も搭載し、KaggleのMLE-Bench-Liteで63%のメダル獲得率を記録。ResNet等の旧来モデルに偏らず、EfficientNetやViTなど最新モデルも自動導入可能。人手によるモデル記述追加やデータ利用の自動補完も可能で、オープンソースコードベースが公開されている。
PenpotのAIホワイトペーパー:UIデザインとAIの未来像
Penpotが2025年8月5日、UIデザインとAIの関係や今後の開発方針をまとめたAIホワイトペーパーを公開した。
本ホワイトペーパーでは、UIデザインが持つ「視覚(非線形)」と「コード(線形)」の二重性や、AIによるデザイン支援の難しさを多角的に分析。従来のデザインツールが命令型(imperative)パラダイムに偏り、設計意図や構造の一貫性が損なわれやすい点を指摘し、PenpotはCSSに忠実な宣言型(declarative)デザインを推進することで、AIやMCPサーバーとの連携を強化している。今後はデザイントークンやオープンなファイルフォーマット(.penpot)を活用し、AIによる部品提案や構造化、MCPサーバー経由での双方向なデザイン・プロダクション連携を目指す。AI支援は「人間中心の意思決定」を重視し、タスク指向のML機能やエージェント連携、オープンなエコシステム構築を進める方針が示された。