AIニュースノート

AIニュースノート⁠Gemma 4 12B公開⁠Nemotron 3 Ultra公開⁠画像モデルReve 2.0/Ideogram 4.0公開⁠ChatGPTメモリー改善⁠Hermes Desktop公開など

gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近(2026年6月3日〜4日頃)に発表・公開されたAI関連の興味深いニュースの概要を簡単にまとめてみました。

※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。

モデル

Google⁠Gemma 4 12Bを公開⁠16GBのVRAM/ユニファイドメモリでローカル実行

Googleは6月3日、オープンモデル「Gemma 4」ファミリーの新モデル「Gemma 4 12B」を発表した。12B規模ながら、より大きな26B MoEモデルに近いベンチマーク性能をうたい、16GBのVRAMまたはユニファイドメモリを備える一般的なノートPCでもローカル実行できるとしている。

特徴は、画像や音声の入力を別個のマルチモーダルエンコーダーへ渡さず、LLM本体へ直接流し込む統合アーキテクチャにある。画像処理では軽量な埋め込みモジュールを使い、音声では生の音声信号をテキストトークンと同じ空間へ射影する。Googleは、これによりマルチモーダル処理の遅延やメモリー使用量を抑え、視覚、音声、テキストを含むエージェント的なワークフローを手元の環境で扱えるようにするとしている。

同モデルはMulti-Token Prediction(MTP)用のドラフターも備え、長い出力時のレイテンシー低減を図る。Apache 2.0ライセンスで公開され、Hugging FaceやKaggleから事前学習済み、指示チューニング済みのチェックポイントを入手できる。Googleは、Gemma 4モデル全体のダウンロード数が1億5000万回を超えたことも明らかにした。

Google⁠Gemma 4 12Bのローカル利用の導線も紹介

Googleは、Gemma 4 12BをGoogle AI Edgeと組み合わせ、手元のPCでエージェント的な作業を試す方法も紹介した。モデルそのものに加え、ローカル環境で試すためのアプリやCLIも示した。

Google AI Edge GalleryはmacOSに対応し、自然言語で分析目的を伝えると、モデルがPythonコードを生成・実行してデータを可視化する例を示している。音声入力・編集アプリ「Google AI Edge Eloquent」もmacOS版を用意し、ホットキーから音声入力を呼び出したり、選択した文章に対して要約、再構成、翻訳などを声で指示したりできる。

さらにLiteRT-LM CLIにはserveコマンドが加わり、Gemma 4 12BをローカルのOpenAI互換エンドポイントとして提供できる。GoogleのデモではOpen WebUIから接続する例も示しており、ブラウザーUIを介したローカル利用も視野に入る。標準的なSDKやエージェント用フレームワークから同じエンドポイントへつなげるため、データを端末内に置いたまま、分析、文章編集、Webページ生成などを試せる。

Google⁠Gemma 4のQATで最適化した重みをHugging Faceで公開(追記)

Googleは6月5日、Gemma 4向けにQuantization-Aware Training(QAT)で最適化した重みをHugging Faceで公開した。対象にはGemma 4の各モデルサイズと、ドラフト生成に使うモデルも含まれる。QATは、モデルの量子化による低精度化を学習段階から織り込む手法で、通常の量子化より性能低下を抑えながら、モデルサイズとメモリー使用量を減らすことを狙う。公式ブログでは、Gemma 4の推論能力を保ちつつ、オンデバイス実行の負荷を下げる更新として案内している。

公開された重みにはQ4_0形式とモバイル向け形式が含まれる。Googleは、標準的な形式ではモバイルプロセッサーで効率よく動かしにくいとして、エッジハードウェアで計算しやすくする独自のモバイル向け量子化方式にも触れている。利用面では、Unsloth、llama.cpp、Ollama、LM Studio、vLLM、MLX、Hugging Face Transformers、LiteRT-LMなどのツールからローカル実行やエッジ展開に組み込める。モデル品質を保ちながら必要メモリーを抑えたい利用者向けの選択肢が増えた。

NVIDIA⁠長時間エージェント向け「Nemotron 3 Ultra」を公開

NVIDIAは6月4日、長時間動作するAIエージェント向けのオープンモデル「NVIDIA Nemotron 3 Ultra」を発表した。5500億パラメーターのMixture-of-Experts(MoE)モデルで、推論時に有効になるのは550億パラメーター。単発のチャットではなく、計画、ツール利用、失敗からの復旧を繰り返すエージェント用途を想定している。

同社は、Nemotron 3 Ultraが同等クラスのオープンモデルに比べ最大5倍高い出力スループットを示し、SWE-benchやTerminal-Bench 2.0を使った実験では、タスク完了までのコストを最大30%下げられるという。コード作成、深い調査、長いツール呼び出しの連鎖など、長時間の推論と高いスループットが必要な場面を主な用途としている。

モデルはHybrid Mamba-Transformer、NVFP4、LatentMoE、Multi-Token Predictionなどを組み合わせ、長いコンテキストと高い出力速度の両立を狙う。Hermes AgentやOpenClawなどのエージェント用ハーネスに合わせてポストトレーニングしており、重み、データ、学習レシピを公開する。Hugging Faceのモデルカードでは、学習データの内訳や合成データ、公開・非公開データの扱いも確認できる。

Reve 2.0⁠レイアウトを中間表現にする画像生成⁠編集を打ち出す

Reveは6月3日、画像生成・編集モデル「Reve 2.0」と、その考え方を解説するブログ「The Layout Bet」を公開した。従来のように長いテキストプロンプトだけで画像を制御するのではなく、画像内の要素ごとに位置、サイズ、説明、参照画像、色などを持つ「レイアウト」を中間表現として使う。

ユーザーは自然言語で修正を指示するだけでなく、レイアウト構造を直接編集して結果を調整できる。同社は、レイアウトを使うためにLarge Layout Modelを構築し、モデルがレイアウト、指示、画像を入力として受け取り、内部の思考過程からレイアウトを導出して最終的なピクセルを描画するとしている。テキストの曖昧さを避け、構図や要素の関係を明示しやすくする狙いがある。

Reve 2.0は4K×4K、16メガピクセルのネイティブ生成にも対応し、アップスケールを後処理として分けず、高解像度のまま反復編集できる点を打ち出している。サービスページでは、画像をコードのように扱うことで、各要素を指定して編集できる直接操作型エディターを実現したとうたう。ブログでは、領域数を増やすほど画像再構成のCLIP類似度が高まる例や、レイアウトモデルが同規模のプロンプト型生成器を上回ったという社内評価も紹介している。

Ideogram⁠初のオープンウェイト画像モデル「Ideogram 4.0」を公開

Ideogramは6月3日、画像生成モデル「Ideogram 4.0」を発表した。同社として初めてモデルの重みを公開し、ユーザーは手元のハードウェアで実行したり、自社データで微調整したりできる。GitHubには推論コードがあり、重みはHugging Faceでライセンスに同意したうえで入手できる。用途は研究、評価、個人プロジェクト向けで、本番利用やクライアントワークには商用ライセンスが必要になる。

4.0は9.3Bパラメーター規模で、デザイン用途を強く意識している。多言語テキスト描画、精密なレイアウト制御、ネイティブ2K画像、背景透過を特徴とする。技術解説では、画像を構造化データとして読み取り、そこから再構成する「describe-to-structure-to-recreate」の流れを採用したとする。物体やテキスト領域、レイアウト要素の位置を説明文と対応付けることで、構図や文字を含むデザインを制御しやすくする狙いがある。Design Arenaでは、プロプライエタリなGPTやGemini系モデルに次ぐ位置にあり、オープンウェイトの画像モデルでは上位とされる。

Miso Labs⁠8B音声生成モデル「MisoTTS」の重みを公開

Miso Labsは6月3日、8Bパラメーターの音声生成モデル「MisoTTS」を公開した。公式ブログでは、感情表現を伴う音声・対話生成を目指すモデルとして紹介し、Hugging Faceでモデルの重みを公開している。APIアクセスも今後提供する予定。Hugging Faceのモデルカードには、推論コードやローカル実行手順へのリンクも用意されている。

モデルはSesame CSMに着想を得たRVQ Transformerで、7.7Bパラメーターのバックボーンと300Mパラメーターの音声デコーダーを組み合わせる。テキストだけでなく任意の音声コンテキストも入力でき、話し手の調子を踏まえた会話音声や、プロンプト音声に続く発話の生成に対応する。現在の言語サポートは英語のみで、会話のターンテイキングや全二重対話は今後の課題とされる。生成音声は標準でウォーターマークが入る。同社は、高表現力の音声生成をローカルで試せる点も打ち出す。

Liquid AI⁠日本語向け音声モデルとテキストモデルを公開(追記)

Liquid AIは6月6日、日本語向けの新モデルとして、音声モデル「LFM2.5-Audio-1.5B-JP」とテキストモデル「LFM2.5-1.2B-JP-202606」を公開した。LFM2.5-Audio-1.5B-JPは同社初の日本語音声モデルで、日本語で話しかけると日本語音声で応答する。ASRとTTSを別々に組み合わせるのではなく、1つのモデルで音声入力から音声出力まで扱うエンドツーエンドの設計になっている。同社はこのモデルについて、この規模で日本語に対応する初のエンドツーエンド汎用音声モデルだとうたう。

あわせて公開されたLFM2.5-1.2B-JP-202606は、日本語テキストモデルの更新版。従来版はJMMLU、M-IFEval、GSM8KでQwen3-1.7BやLlama 3.2 1Bを上回っていたとし、今回の更新では日本語データの構成を改善し、新しいポストトレーニングを加えたという。重みはHugging Faceで公開されており、音声モデルとテキストモデルをそれぞれ入手できる。日本語アプリの会話、音声応答、端末上での軽量な推論を意識したモデルとして、小規模・オンデバイス寄りのLFM2.5系列で日本語対応を広げた。

OpenAI

ChatGPTのメモリー機能を刷新⁠古い記憶や矛盾を減らす仕組みに

OpenAIは6月4日、ChatGPTのメモリー機能を刷新し、会話をまたいで文脈をより新しく保つ仕組みを公開した。新しいメモリーは、過去の会話から重要な情報を自動的に整理する「dreaming」を土台にし、古い記憶や矛盾した記憶を減らしながら、ユーザーの好み、目標、進行中の作業を反映しやすくする。OpenAIは、旅行予定のような時間に依存する情報を、予定前、滞在中、終了後で扱い分ける例を示している。

ユーザーは、ChatGPTが応答の個人化に使う可能性がある記憶を、ソース表示やmemory summaryから確認できる。memory summaryでは、ChatGPTが把握している内容の要約を見たり、情報を追加・更新したり、特定の話題をどう扱うか指示したりできる。米国のPlusとProユーザー向けに提供が始まり、iOSやAndroidでは最新のChatGPTアプリが必要になる。PlusとProでは記憶容量も2倍になり、FreeとGo、追加の国や地域には今後数週間で広げる予定としている。従来のsaved memoriesに戻したい場合は、設定から切り替えられる。長期のプロジェクトや継続的な相談で、同じ前提を繰り返し伝える負担を減らせる。

ChatGPTのLockdown Mode⁠ログイン済み全ユーザーに提供

OpenAIは6月4日のChatGPTリリースノートで、⁠Lockdown Mode」をログイン済みの全ユーザーに提供したと発表した。Lockdown Modeは任意で有効にする高度なセキュリティ設定で、Webや外部サービスへのアクセスを制限し、プロンプトインジェクション攻撃によるデータ流出リスクを下げることを目的にしている。個人ユーザーはSettings > Securityから有効化でき、ワークスペース管理者はワークスペース設定やロールベースのアクセス制御でメンバーの利用を管理できる。

Lockdown Modeを有効にすると、ChatGPTはネットワークを使う機能を制限する。対象には、ライブWebブラウジング、deep research、agent mode、ファイルダウンロード、Web由来の画像を扱う一部機能などが含まれる。外部サイトや外部サービスを使う機能は便利な一方、悪意あるページや文書がモデルの行動を誘導し、機密情報の送信を促す可能性がある。Lockdown Modeはその攻撃面を狭めるための防御策になる。調査や自動化の自由度は下がるが、機密性の高い作業や組織利用では、必要に応じて安全側へ切り替える選択肢として使える。

CodexのBuild iOS Appsプラグイン⁠SwiftUIプレビューとホットリロードに対応

OpenAI Developersは6月4日、Codex向けの「Build iOS Apps」プラグインについて、iOSアプリの確認と反復をCodex内で進める機能を紹介した。同プラグインを使うと、CodexがiOSアプリを内蔵ブラウザーで表示・テストし、SwiftUIプレビューを開き、編集内容をホットリロードしながら確認できる。James Sun氏の投稿では、アノテーションモードでUIに具体的なフィードバックを与えたり、アプリ内の要素や画面向きをブラウザーでテストさせたりする使い方も示している。

OpenAIのプラグインリポジトリでは、Build iOS AppsをSwiftUIの実装、リファクタリング、パフォーマンス確認、デバッグ向けのプラグインとして掲載している。関連するオープンソースとして、Evan Bacon氏のserve-simがストリーミング型のシミュレーター表示を支え、SentryのSnapshotPreviewsがSwiftUIプレビューの抽出に使われている。従来はXcode、シミュレーター、プレビュー、実機確認を行き来しがちだったiOS開発のループを、Codexの作業画面内へ寄せる狙いがある。

OpenAI⁠ライフサイエンス向けGPT-Rosalindの機能を拡張

OpenAIは6月3日、ライフサイエンス研究向けモデルシリーズ「GPT-Rosalind」の新機能を発表した。更新版はGPT-5.5のエージェント的なコーディングとツール利用能力を取り込み、創薬、ゲノミクス、定量生物学、実験ワークフローの分析や設計に向けた知能を強化したという。

OpenAIは独自評価のLifeSciBench、MedChemBench、GeneBench、LabWorkBenchを公表し、医薬品化学ではGPT-5.5を上回るスコアを、ゲノミクス・定量生物学や実験支援では精度向上とトークン削減を示した。これらの評価は、論文や実験記録からの根拠整理、薬剤候補の最適化、実験プロトコルのトラブルシューティングなどを重視している。

あわせてCodex向けに「Life Sciences Research」「Life Sciences NGS Analysis」プラグインを用意し、根拠検索、生物学的解釈、バイオインフォマティクス実行を同じ作業環境で扱えるようにした。両プラグインはCodexから利用でき、適格なGPT-Rosalind EnterpriseユーザーはGPT-Rosalindでこれらを動かせる。GPT-Rosalindは、信頼済みアクセスの枠組みを通じ、適格な組織向けのresearch previewとしてグローバルに提供を広げる。

Anthropic

Anthropic⁠Claude CodeのSkills活用ノウハウを公開

Anthropicは6月3日、Claude CodeでSkillsを社内利用してきた知見をまとめた記事「Lessons from building Claude Code: How we use skills」を公開した。Skillsは単なるMarkdownではなく、手順書、スクリプト、参照資料、アセットなどを含むフォルダとして扱われ、Claude Codeが必要な場面で参照・実行できる拡張ポイントとして機能する。記事では、社内で数百のSkillsを運用してきた経験から、良いSkillsは用途が明確で、エージェントが普段からできることを繰り返すのではなく、通常の動作だけでは見落としやすい知識や落とし穴を補うものだという。

分類では、ライブラリやAPIの参照、検証、データ取得・分析、業務プロセス、コード雛形、コード品質、CI/CD、Runbook、インフラ運用の9種類を挙げる。特に検証用Skillsは社内で出力品質への効果が大きく、Playwrightやtmux、動画記録、状態アサーションなどと組み合わせる例もある。Skillsの作成時は、一般的な手順を長く並べるより、エージェントが判断を誤りやすい条件や見落としやすい注意点を具体的に書くことを重視し、SKILL.mdから詳細ファイルへ分けるprogressive disclosure、設定情報の扱い、スクリプトやhooksの活用も勧めている。

AnthropicのThariq Shihipar氏⁠Claude CodeのDynamic Workflows解説記事を紹介

AnthropicのThariq Shihipar氏は6月3日、Sid Bidasaria氏と執筆したClaude BlogのDynamic Workflows解説記事をXで紹介した。同氏は同機能を、Skillsとsubagentsの導入以来、Claude Codeの能力を最も大きく広げる更新と表現し、非技術タスクへの応用にも期待を語った。

Dynamic Workflowsは、Claude Codeがタスクに合わせてJavaScriptのオーケストレーション用スクリプトを作り、複数のサブエージェントを起動・調整する仕組み。標準ハーネスはコーディングに強い一方、長時間・大規模並列・構造化された検証では、途中で完了と判断して止まる、自分の結果を優先して評価しやすい、圧縮で細かな要件が薄れるといった問題が出やすいという。

記事は、分類して処理を振り分けるClassify-and-act、作業を分割して統合するFan-out-and-synthesize、別エージェントに検証させるAdversarial verificationなどを代表例に挙げる。用途はリファクタリング、深い調査、事実検証、チケット分類、根本原因調査、評価、モデル選択などに及ぶ。ただし、トークン消費も増えるため、価値が高く複雑な作業に絞るのがよいとしている。

Claude CodeのDynamic Workflows⁠明示的なトリガーワードを「ultracode」に変更

ClaudeDevsは日本時間6月4日未明、Claude CodeのDynamic Workflowsを明示的に呼び出すトリガーワードを「workflow」から「ultracode」に変更したと投稿した。Dynamic Workflowsは、前項で触れた通りClaude Codeがタスクに応じてワークフローを作り、複数のサブエージェントを並列に動かすresearch previewの機能。5月29日の初回告知後、通常の文脈でワークフローに触れただけでも意図せず起動し得る点を踏まえ、明示的に呼び出すための語を改めた変更となる。

変更後も「use a workflow for this」と明示すればDynamic Workflowsを使える一方、別の意味でworkflowに触れている場合にはDynamic Workflowsを起動しないようになる。明示的に使いたいときは「ultracode」を使う。たとえばGitHub Actionsのworkflowを作る依頼や、業務上の作業手順を説明する会話で、意図せず複数エージェントが動く混乱を避けるための調整となる。機能自体は維持しつつ、呼び出し条件をより明確にする更新といえる。

Anthropic⁠Project Glasswingに約150組織を追加

Anthropicは6月2日、重要ソフトウェアの安全性向上を目指す「Project Glasswing」の対象を拡大したと発表した。Project Glasswingは、Claude Mythos Previewを使ってコードベースの脆弱性を検出する共同取り組みで、4月には約50の初期パートナーがアクセスしていた。Anthropicによると、これまでのパートナーは深刻度が「高」または「重大」のセキュリティ上の欠陥を1万件以上見つけている。今回、セキュリティ業界、オープンソース保守者、米国政府などとの協議を経て、15カ国以上の約150組織を新たに加える。

新たな参加組織は、電力、水道、医療、通信、ハードウェアなど、初期参加組織では十分にカバーされていなかった分野を含む。多くは、政府や多数の組織が依存するコードベースを保守するベンダーや非営利団体でもある。各組織はアクセス前にAnthropicのセキュリティ要件を満たす必要がある。Anthropicは、6〜12カ月以内に同等クラスのAIモデルが他社にも広がる可能性を前提に、防御側がAI時代の運用規範へ移行できるよう支援し、脆弱性の発見だけでなく、開示、修正、パッチ適用まで支援を広げる方針も掲げている。

Anthropic⁠AI悪用アカウント832件をMITRE ATT&CKに対応付けて分析

Anthropicは6月3日、AIを使ったサイバー攻撃が既存の防御側フレームワークでどこまで捉えられるかを検証したレポートを公開した。2025年3月から2026年3月までに、悪意あるサイバー活動で停止したアカウントのうち、詳細に評価できた832件を対象に、攻撃者の戦術・技術を整理するデータベース「MITRE ATT&CK」へ活動内容を対応付けた。

分析では、AIが攻撃者をより危険にしていること、攻撃が自律性を増していること、既存のMITRE ATT&CKではAIを使った攻撃の危険なふるまいを十分に表しきれないことを主な結論に挙げている。対象アカウントの67.3%にあたる560件はマルウェア作成にAIを使い、6.5%にあたる54件は侵害後に内部ネットワークを移動する「ラテラルムーブメント」にAIを使っていた。中リスク以上に分類された攻撃者の比率は前半6カ月の33%から後半6カ月には56%へ上昇し、AI利用は初期侵入よりも侵害後の活動へ広がっている。Anthropicは、攻撃段階をつなぐ自律的なオーケストレーションが既存分類に入りにくい点を問題視し、MITREとも枠組みの更新について協議している。

Anthropic⁠Claudeでセルフサービス型データ分析を進める実践例を公開

Anthropicは6月3日、Claudeを使ってビジネス分析をセルフサービス化するための実践例を公開した。同社では、ビジネス分析クエリの95%をClaudeで自動化し、集計ベースで約95%の精度を得ているという。アドホックな依頼をClaudeへ移すことで、データサイエンスチームは因果推論、予測、機械学習など、より戦略的な作業に集中できるとしている。

記事では、分析エージェントの精度はコード生成ではなく、文脈と検証の問題として整理されている。主な失敗要因として、ユーザーの概念を正しいテーブルや指標へ結び付けられない「概念とエンティティの曖昧さ⁠⁠、データソースや定義の陳腐化、必要な情報を見つけられない検索失敗の3つを挙げている。Anthropicは、これに対して、正規化されたデータ基盤、信頼できる参照情報、Claude CodeのSkills、オフライン評価とオンライン検証を組み合わせるエージェント型分析スタックを構築した。Skillsがない状態では評価上の正答率が21%を超えなかった一方、Skillsを加えると集計で95%超、特定領域では99%前後に達するという。記事は、カノニカルなデータセット、数十件の評価、軽量な知識スキルから始める構成を推奨している。

Anthropic⁠AIがAI開発を加速する「再帰的自己改善」の可能性を論じる

Anthropicは6月4日、AIがAI開発を加速し、将来的により高性能な後継システムを自律的に設計・構築する「再帰的自己改善」へつながる可能性を論じた記事「When AI builds itself」を公開した。同社は、AIが自社の開発作業に与えている影響を、公開ベンチマークと社内データの両面から示している。2026年5月時点で、Anthropicのコードベースへマージされるコードの80%超はClaudeが作成しており、2026年第2四半期の典型的なエンジニアは、2024年と比べて1日あたり8倍のコードをマージしているという。

記事では、コード量だけでなく、作業の質や研究判断にも踏み込む。最もオープンエンドなコーディング課題でのClaudeの成功率は2026年5月に76%へ達し、6カ月で50ポイント上がった。小さなAIモデルの学習コードを高速化する社内テストでは、Claude Opus 4が2025年5月に平均約3倍の高速化だったのに対し、2026年4月のClaude Mythos Previewは約52倍に達した。研究セッションで次に何をすべきかを選ばせる評価では、Mythos Previewが人間の選択を64%の割合で上回った。Anthropicは、再帰的自己改善はまだ実現しておらず不可避でもないとしつつ、研究課題の選定や結果の信頼性判断が今後の焦点になるとしている。

Anthropic⁠ClaudeをNMR解析に使う研究記事を公開(追記)

Anthropicは6月5日、Science Blogの記事「Making Claude a chemist」を公開した。化学者が分子を操作するには構造の理解が前提になり、その主要な手段としてNMR分光法を取り上げている。記事では、NMRの測定データから候補の分子構造を絞り込む場面を扱う。Anthropicによると、Claude Opus 4.7は一部のNMR解析タスクで専用ソフトウェアに匹敵し、タスクによっては上回ったという。

NMR解析では、化学の知識に加えて、ピークの読み取りや候補構造の検討が求められる。記事の焦点は、Claudeを単なる化学知識の問答モデルとしてではなく、専門家が使う実験データを前提に、構造推定の作業をどこまで助けられるかにある。ただし、AnthropicはClaudeを専門ソフトの代替と断定しているわけではない。科学分野でのAI利用を、文献要約や質問応答だけでなく、実験データの解釈支援にも広げようとしている。

AIツール関連

Nous Research⁠「Hermes Desktop」をパブリックプレビューで公開

Nous Researchは6月3日、エージェント環境「Hermes Agent」をデスクトップアプリとして使える「Hermes Desktop」をパブリックプレビューとして公開した。Jensen Huang氏のGTC基調講演で初披露されたもので、公開ページではmacOS 12以降、Windows 10/11、Linux向けの入手方法を示している。Hermes Agentはオープンソース、MITライセンスで提供され、Nous Portalの有料プランではHermes Agent向けの月間クレジットや300以上のモデル、組み込みツール利用を含むとしている。

デスクトップ版は、Telegram、Discord、Slack、WhatsApp、Signal、メール、CLIなど複数の接点から同じエージェントとメモリーを使える構成を取る。プロジェクトを覚える永続メモリー、自然言語によるスケジュール実行、分離されたサブエージェント、Web検索やブラウザー自動化、ローカル・Docker・SSHなどのサンドボックス実行も主要機能として並ぶ。ローカルの端末アプリに閉じず、外部チャネル、ツール、実行環境を束ねる個人向けエージェント基盤として打ち出している。

Hermes Web Dashboard⁠ブラウザーで完結する管理パネルに刷新

Nous Researchは6月4日、Hermes Web Dashboardを大幅に刷新し、ブラウザーからHermes Agentを管理できるようにした。ダッシュボードはhermes dashboardで起動し、標準ではhttp://127.0.0.1:9119を開く。ローカルマシン上で動作し、ドキュメントでは「データはlocalhostから出ない」としている。YAMLやCLIを直接触らずに、設定、APIキー、セッション監視を扱えるようにする。

機能面では、稼働状況を表示するStatus、Hermes TUIをブラウザー内に埋め込むChat、config.yamlのフォーム編集、APIキー管理、セッション検索、ログ表示、利用量とコストの分析、cronジョブ作成、スキルやMCPサーバー、Webhook管理までを含む。Web関連の依存関係はhermes-agent[web,pty]または[all]で導入できる。非localhostにバインドする場合はAPIキー露出の危険があるため、認証やファイアウォールを前提にする必要がある。Hermes Desktopをリモートバックエンドへ接続する手順も用意されている。

GitHub Copilot⁠100万トークンのコンテキストと推論レベル設定に対応

GitHubは6月4日、GitHub Copilotで100万トークンのコンテキストウィンドウと、設定可能な推論レベルをサポートしたと発表した。対象はVS Code、Copilot CLI、GitHub Copilot appで、今後ほかの利用環境にも広げる予定としている。大きなコンテキストウィンドウにより、大規模なコードベース、長いドキュメント、複数ファイルにまたがるプロジェクトでも文脈を保持したまま作業しやすくなる。

推論レベルの設定では、速度と深さのバランスをユーザーが調整でき、アーキテクチャ検討や難しいデバッグなどで拡張された思考を使える。GitHubは、通常の作業では既定のコンテキストウィンドウと推論レベルを使い、複雑な複数ファイル問題に取り組むときに拡張コンテキストや高い推論レベルを選ぶことを推奨する。大きなコンテキストや高い推論レベルを選ぶと、1回のやり取りで消費するAIクレジットが増える点にも注意が必要になる。利用するには、対応モデルをVS Code、Copilot CLI、GitHub Copilot appで選択する。詳細はモデルドキュメントで確認できる。

LM Studio⁠モバイルアプリ「Locally」とLM LinkのiPhone対応を公開

LM Studioは6月4日、ローカルLLM実行環境「LM Studio」のモバイルアプリ「Locally」を公開した。LocallyはiPhoneとiPadで利用でき、LM Studioのローカルモデルを外出先から使うためのアプリとして提供されている。あわせて公開されたLM Studio 0.4.16のリリースノートでは、Locallyの導入と、LM Linkを使って手元のLM Studio環境にある大きなモデルをモバイル側から利用できる点を主要項目として挙げている。

LM Linkは、LM Studioホストとモバイル端末を安全なエンドツーエンド暗号化接続でつなぐ機能として示されている。クラウド上のAPIにモデルを置くのではなく、手元のPCなどで動くモデルをスマートフォンから呼び出す導線を用意することで、ローカルモデルの持ち運びに近い使い方を狙う。0.4.16ではこのほか、セキュリティ強化と、CUDA 12、ROCm、Vulkan環境の一部でGPUのON/OFFや優先順位選択に影響していたGGUFのマルチGPU選択不具合も修正した。

Cursor⁠UIを要素選択⁠描画⁠音声で指示するDesign Modeを更新(追記)

Cursorは6月5日、エージェントに視覚的な指示を渡してUIを更新できる「Design Mode」の更新を発表した。Cursorのブログでは、チャットはエージェント操作の入口の一つだが、UI作業は空間的な文脈を伴うことが多いとしている。Design Modeでは、Cursor Browser上で実行中のアプリを見ながら、要素をクリックして選ぶ、画面上に描く、音声で変更内容を伝えるといった方法で、エージェントに編集対象と意図を渡せる。

選択した要素は、xpath、コンポーネント、属性、計算済みスタイル、propsなどの要素情報と、周囲のレイアウトやページ状態を含むスクリーンショットの両方としてコンテキストに入る。複数要素の選択、囲み込み、音声入力にも対応し、どの領域をどう変えたいかを文章だけに頼らず伝えられる。さらに、1つの編集が終わる前に別の箇所を指示でき、複数のサブエージェントを管理する流れにもつながる。エージェントの作業が終わるとアプリはホットリロードされ、変更結果を見ながら次の修正へ進める。UIの見た目を確認しながら細かな修正を重ねる作業で、エージェントがコード上の対象を見つけやすくする。

NotebookLM⁠生成物の根拠を確認できるSource Attributionを追加(追記)

NotebookLMは6月5日、生成された成果物に使われた根拠情報や生成条件を確認できる新機能「Source Attribution」を公開した。NotebookLMの投稿によると、ユーザーは各成果物について、生成に使われたプロンプトとソースの組み合わせを後から確認できる。これまで、生成された資料や成果物がノートブック内のどの情報をもとに作られたのか分かりにくい場面があったが、Source Attributionにより、生成過程の参照元を成果物ごとにたどりやすくなる。

同機能は、生成物を調整する流れにも関わる。投稿では、内容を変えたい場合は「Iterate」をタップしてカスタマイズできるとしている。NotebookLMは、ユーザーが登録したソースをもとに要約、音声概要、資料作成などを行うため、成果物ごとの出典や利用したプロンプトが見えることは、確認や再編集のしやすさに直結する。特に複数の資料を扱うノートブックでは、どのソースに基づく内容なのかを確認してから修正できる。学校での調査や社内資料の下書きなどで、生成結果をそのまま受け取るのではなく、プロンプトと根拠を見ながら作り直しやすくする。

Google Research⁠Gemini Enterprise Agent Platform向けAgentic RAGをパブリックプレビュー提供(追記)

Google Researchは6月5日、Google Cloudとの共同開発によるAgentic RAGフレームワークを紹介した。Gemini Enterprise Agent PlatformでホストされるCross-Corpus Retrieval powered by Agentic RAGとして、パブリックプレビューで利用できる。通常のRAGが単一の検索で文書を探して回答を作るのに対し、複雑な企業内クエリを分解し、複数の情報源をまたいで十分な文脈を探す仕組みを前面に出している。

この構成では、Orchestratorが依頼を評価し、Planner Agentが検索経路を決め、Query Rewriterが検索しやすいクエリへ分解する。Search Fanout Agentは複数の取得元から情報を集め、Sufficient Context Agentは取得した断片、下書き、足りない情報を確認し、文脈が不足していれば追加検索へ戻す。FramesQAでの評価では、標準的なRAGに比べて事実性データセットで最大34%精度が向上したとしている。複数部門や複数データベースにまたがる社内検索で、文脈が足りているかを確認しながら根拠付き回答を作れるようにする。

解説⁠論点

生成UIは「新しいフロントエンド」か⁠3つの設計パターンを整理

GoogleのShubham Saboo氏は6月4日、Xで「Generative UI Is the New Frontend」と題した長文投稿を公開し、AIエージェントが文章で結果を返すだけでなく、表、カード、フォーム、ダッシュボードなどのUIをリアルタイムに生成する方向を論じた。投稿では、MCPがエージェントとツール、A2Aがエージェント同士、AG-UIがエージェントとユーザーをつなぐ層になり、A2UIはAG-UI上でUIスキーマを運ぶ仕様として整理されている。

生成UIの実装パターンは3つに分けられる。Controlledは事前に作ったコンポーネントをエージェントが選ぶ方式で、デザインの再現性は高いが、登録コンポーネントが増えるほどツール定義がトークンを消費する。Declarativeはエージェントがスキーマを出し、アプリ側のカタログがReactなどの部品へ対応付ける方式で、多数のカードやフォームに向く。Open-endedはカタログなしでHTMLなどを生成し、サンドボックス内に描画する方式で、一回限りの可視化には向くが、主要UIにするとブランドや安全性が揺らぎやすい。投稿は、既定でControlledを増やしすぎたり、デモ映えするOpen-endedへ流れたりせず、用途に合わせて選ぶ必要性を強調している。

Mem0⁠主要エージェントハーネスのメモリー実装を整理

Mem0は6月2日、同日時点の公開情報や実装をもとに、AIエージェントの実行環境「エージェントハーネス」のメモリー設計を整理した投稿「State of Memory in Agent Harness」を公開した。Claude Code、Codex、GitHub Copilot、OpenClaw、Devinなどを対象に、コンテキスト管理やツール連携を担うハーネスが、何を保存し、どう検索・取得し、どこに限界があるかを比較している。

投稿では、メモリーをセッション中の「ワーキングメモリー⁠⁠、モデルの重みの外に保存する「外部メモリー⁠⁠、学習で重みに刻まれる「パラメトリックメモリー」に分ける。2026年時点の本番利用はほぼ外部メモリーに集中する一方、容量に上限のあるローカル保存領域、キーワード中心の検索、ハーネス単位に閉じたスコープ、古い記憶の更新、ユーザー間の分離に課題が残ると整理する。既存ベンチマークについても、会話履歴からの事実検索に偏り、行動改善や1000万トークン級の本番規模を測りにくいとした。同社は、ベクトル検索、知識グラフ、キー・バリュー型メタデータを組み合わせる外部メモリー層を、ハーネスをまたいで使うインフラとして提案する。

主なハーネス別の整理は以下の通り。

  • Claude Code:CLAUDE.mdによる人間作成の設定と、Claudeが書くMarkdownメモを併用する。メモの選択はファイル名や説明が中心で、埋め込み検索は使わない。1ターンで読み込めるファイル数やインデックスにも上限がある。

  • Anthropic Managed Agents:ホスト型ランタイムとして、追記専用のイベントログと/mnt/memory/のメモリーストアを使う。書き込み履歴を監査しやすく、複数エージェントで共有できる一方、ワークスペース単位の設計で個人の長期記憶には追加設計が必要になる。

  • Codex:Mem0投稿で取り上げたCodexのローカルメモリーでは、~/.codex/memories/配下のMarkdownを中心に、要約、MEMORY.md、ロールアウト要約を扱う。読み出しは要約のトークン上限とgrepに依存する。

  • GitHub Copilot:記憶を構造化し、ファイルと行番号の引用を検証してから使う。現在のブランチと矛盾する記憶を書き換え、28日で自動失効する仕組みも備える。Mem0は、PRマージ率が83%から90%へ上がった公開データも重視している。

  • OpenClaw:MarkdownのMEMORY.mdや日次ログに加え、SQLiteの埋め込みインデックスとハイブリッド検索を備える。コンテキスト圧縮前の保存はモデル判断に左右されるため、Mem0プラグインではターンごとの自動取得・保存で補う。

  • Hermes Agent:小さなMEMORY.mdUSER.md、手順を記すスキル、SQLite FTS5によるセッション検索を組み合わせる。永続メモリーの上限は小さく、検索もキーワード中心のため、外部プロバイダーで意味検索やサーバー側抽出を補う構成になる。

  • AWS Bedrock AgentCore:AWSのホスト型エージェント基盤で、Runtimeがハーネス層、Memoryが管理サービスとして機能する。意味的事実、好み、要約を非同期抽出し、変更された事実は削除ではなく無効化する。AWSのエコシステムに閉じる点は課題になる。

  • Windsurf:Cascadeがローカルのワークスペース単位ファイルに、コードベースのパターンや規約を自動保存する。開発者が明示的に管理しなくてよい反面、何が保存されるかはエンジン側の判断に寄り、プロジェクト間では共有されない。

  • Cognition Devin:人間が承認するKnowledgeと、参照文書としてのDeepWikiに分ける。セッション後にDevinが候補を提示し、人間が保存を決めるため品質は保ちやすいが、レビューしないチームでは記憶が蓄積しにくい。

  • @mem0aiの投稿 - X

  • OpenClaw Memory Management: Live Data Compaction and Best Practices - Mem0 Blog

AI以外のITトピック

CloudflareがVoidZeroを買収⁠Viteはオープンでベンダー非依存を維持

Cloudflareは6月4日、Vite、Vitest、Rolldown、Oxc、Vite+を手がけるVoidZeroを買収し、同社チームがCloudflareに加わると発表した。CloudflareとVoidZeroは、Vite、Vitest、Rolldown、Oxc、Vite+が引き続きオープンソース、ベンダー非依存、コミュニティ主導で開発される点を強調している。CloudflareはViteエコシステムへの投資も打ち出し、Viteコアチームが管理する100万ドルのVite ecosystem fundを設ける。

ViteはVue、SvelteKit、Nuxt、Astro、Solid、Qwik、Angularなど多くのフレームワークの基盤になっており、Cloudflareはその信頼を維持しながら開発者プラットフォームとの統合を進める方針を示した。Evan You氏はVoidZero側の投稿で、Vueは今回の買収対象ではなく独立プロジェクトのままと補足した。短期的には既存プロジェクトの開発体制を維持し、長期的にはViteにフルスタックアプリやエージェント向けのプロバイダー非依存なプリミティブを加える構想も示している。

Kotlin 2.4.0公開⁠コンテキストパラメータやUUID APIがStableに

JetBrainsは6月4日、プログラミング言語Kotlinの最新版「Kotlin 2.4.0」を公開した。言語機能では、コンテキストパラメータ、明示的なバッキングフィールド、アノテーションのuse-site target関連機能がStableになった。標準ライブラリではUUID APIが安定版となり、コレクションがソート済みかを判定するAPIも追加された。Kotlin/JVMではJava 26をサポートし、メタデータ内アノテーションを既定で有効にする。

Kotlin/NativeではSwift Package Manager由来の依存関係を扱えるようになり、Swift exportの更新やCMS GCの既定有効化も入った。Kotlin/Wasmはインクリメンタルコンパイルを既定で有効にし、WebAssembly Component Modelをサポートする。Kotlin/JSではvalue classのエクスポートや、JSコードのインライン化でES2015機能を扱えるようになった。Gradle 9.5.0互換、MavenでのJava/JVMターゲット自動整合、.klibコンパイル時のinline関数挙動の整理も含む。移行時には、K1コンパイラのサポート終了などの破壊的変更にも注意が必要になる。

Swift.org⁠2026年5月のSwift関連動向を公開(追記)

Swift.orgは6月3日、Swiftプロジェクトとコミュニティの動向をまとめる「What’s new in Swift: May 2026 Edition」を公開した。今回のまとめでは、SwiftでLLMを学習する取り組み、SwiftとWebAssembly、Swift Evolutionの提案、Temporal Swift SDKの講演などを取り上げている。

AI関連では、Matt Gallagher氏による「Training an LLM in Swift, Part 1」を紹介している。llm.cをSwiftへ移植する過程で、手書きの行列乗算を最適化し、Swift 6.2のMutableSpanとInlineArray、Swift NumericsのRelaxed.multiplyAdd、並列実行、AMX、Metalなどを使って、2.8Gflop/sから1.1Tflop/sまで高速化したという。このほか、GoodnotesのWeb版におけるSwiftとWebAssemblyの活用、Temporal Swift SDK 1.0.0、Swift Evolutionの非コピー型関連提案なども並び、Swiftの活用領域をアプリ開発だけでなく、機械学習、サーバー、ワークフロー基盤まで幅広く扱っている。

Zed 1.5.3公開⁠Mermaid表示とエージェントスレッド操作を改善

Zed Industriesは6月3日、コードエディタ「Zed」の安定版1.5.3を公開した。Mermaid図のレンダラーを刷新し、Markdownプレビューなどで表示速度と正確性を改善した。Zedは前回までにエージェント画面でのMermaid表示やインライン画像表示を進めており、今回の更新はドキュメントや設計メモをエディタ内で確認する体験をさらに整える。macOS、Windows、Linux向けに配布されている。

AI関連では、サイドバーからエージェントスレッドの名前を直接変更できるようになった。完了したスレッドが折りたたまれたプロジェクト内にある場合の通知表示や、Agent Panelでバッククォートされたファイルパスをクリックして該当箇所を開く機能も追加されている。言語機能では、Language Serverが返すdocument linkをエディタ上でクリック可能にした。例えばOpenAPIのJSON仕様で$refをcmdクリックし、参照先スキーマへ移動するといった使い方ができる。仕様書、API定義、エージェントとのやり取りを同じ画面で扱いやすくする。

Android Studio Quail 1が安定版に⁠Geminiでクラッシュ修正案を提案(追記)

Android Developersは6月5日、Android Studio Quail 1(2026.1.1)の安定版を案内した。リリースノートでは、最新版の安定版として新機能と改善点をまとめており、Android Gradle Pluginとの対応関係やクラウドサービスの互換性も更新されている。Quail 1はAGP 4.0〜9.2を対象にし、Gemini in Android Studio、Play Vitals、Firebase Crashlyticsなどのクラウドサービスは、最新の安定版と直近10カ月以内のメジャーバージョンで利用できる。

AI関連では、App Quality Insights(AQI)からAIエージェントに修正を依頼できる。AQIでクラッシュを選び、Insightsタブの「See more」から詳細な説明を確認し、⁠Fix with AI」を押すと、エージェントがクラッシュデータとソースコードを分析し、修正候補のコード変更を提案する。開発者は提案を確認したうえで受け入れられる。Studio Labsでは、安定版のAndroid Studioでも最新のAI実験機能を試せるため、クラッシュ調査から修正案の作成までをIDE内でつなげやすくなる。

Google⁠Colabをターミナルから使える「Google Colab CLI」を発表(追記)

Googleは6月5日、Google Colabをローカルのターミナルから扱うための「Google Colab CLI」を発表した。ローカル環境とクラウド上のColabランタイムをつなぐCLIで、開発者だけでなく、端末へアクセスできるAIエージェントからも使える実行環境として設計されている。

CLIでは、colab --gpu A100colab --gpu T4でGPUを指定したランタイムを用意し、colab execでローカルのPythonスクリプトや機械学習パイプラインをリモート実行できる。成果物やノートブックログはcolab downloadcolab logで取得し、colab replcolab consoleで対話的に接続する。ブログでは、AntigravityにGemma 3 1BのQLoRA微調整を依頼する例を紹介しつつ、Claude Code、Codexなどのエージェントでも利用できるとしている。エージェントがCLIをすぐ扱えるよう、Colab用のスキルファイルも用意している。セットアップ手順はGitHubリポジトリで案内しており、ColabのGPU/TPUをエージェント主導の開発作業に組み込みやすくしている。

Microsoft 365 Beta Channel⁠LaTeX⁠MathML⁠アクセシブルPDFの数式機能を改善

MicrosoftはMicrosoft 365 Insider向けに、数式ワークフローを改善する新機能をBeta Channelで案内した。対象はWord、PowerPoint、Excel、OneNoteなどのMicrosoft 365アプリで、LaTeXの取り込み、MathML Core互換、アクセシブルなPDF出力を柱にしている。LaTeXを使う利用者は、数式ゾーンへ貼り付けたLaTeXや、数式挿入機能からOffice Mathへ変換しやすくなる。

MathMLについては、Microsoft 365アプリがインポートとエクスポートを扱い、クリップボードや他アプリとの連携で数式データをより標準的に受け渡せるようにする。Microsoft Learnでは、Word、PowerPoint、Excel、OneNoteがMathMLを扱い、PDF/UA書き出し時に数式のMathML表現をタグツリーへ含める仕組みも解説している。これにより、数式を含む文書や資料をPDF化した場合でも、対応するPDFリーダーや支援技術が構造化された数式情報を利用しやすくなる。教育、研究、アクセシビリティ対応の文書作成を支える更新といえる。

おすすめ記事

記事・ニュース一覧