Hugging Face、機械学習の論文調査から学習実行まで進めるAIエージェント「ml-intern」を公開

Hugging Faceは2026年4月21日、機械学習（ML）研究者が日常的に行う論文調査、データセット確認、学習実行、評価といった研究ループを支援するAIエージェント「ml-intern」を公開した。プロンプトを使って指示すると、ML関連の論文や引用関係を調べ、GPUサンドボックス上でアイデアを実装し、評価結果を見て反復しながら研究を進められるという。

Introducing ml-intern, the agent that just automated the post-training team @huggingface

It's an open-source implementation of the real research loop that our ML researchers do every day. You give it a prompt, it researches papers, goes through citations, implements ideas in GPU… pic.twitter.com/USLWv6lKz9
— Aksel (@akseljoonas) April 21, 2026

Hugging Faceエコシステムと連携し⁠、論文調査から学習まで処理

ml-internはCLIとWebアプリで提供される。CLI版はGitHubリポジトリで公開されており、READMEでは「Hugging Faceエコシステムを使い、良質なML関連コードを自律的に調査、作成、出荷するMLインターン」と紹介されている。ただし、記事公開時点でリポジトリにライセンスファイルは置かれていない。

Hugging FaceのAksel Joonas Reedi氏の公開時の上記投稿によると、ml-internはarXivやHugging Face Papersで論文を探し、引用グラフをたどりながら手法やデータセットを調べる。さらに、Hugging Face Hub上のデータセットを確認し、学習に使える形へ整形する処理にも対応する。

学習環境については、ローカルGPUが利用できない場合にHugging Face Jobsでトレーニングジョブを起動し、実行状況を監視できるという。評価出力を読み取り、失敗原因を診断し、必要に応じて再学習する流れにも対応しているとのこと。

Web版はHugging Face Spaces上のアプリとして利用できる。

公開後48時間で50億トークンを消費

Aksel氏は別の投稿で、ml-internは公開後48時間で50億トークンを消費し、1日あたりのコストが1万5,000ドルに達したと説明している。この投稿時点では、無料枠で利用できるClaude Opusのセッションは1日2回に制限され、制限に達した後もKimi、MiniMax、GLMといった代替モデルは利用できるとしていた。

Opusを継続的に使いたいユーザーには、月額9ドルの「HF Pro」を案内していた。

GPQA⁠、HealthBench⁠、競技数学での検証例を紹介

公開時の投稿では、ml-internを使った事例も紹介されている。

科学的推論のベンチマークGPQAでは、公式ベンチマーク論文の引用をたどり、OpenScienceやNemoTron-CrossThinkを見つけたうえで、ARC、SciQ、MMLUから難易度でフィルタリングした7種類のデータセットを追加したという。その後、Qwen3-1.7Bで12回の教師ありファインチューニング（SFT）を実行し、10時間以内にスコアを10%から32%へ引き上げたとしている。投稿では、比較対象としてClaude Codeの最高スコアが22.99%だったことにも触れている。

医療領域の検証では、利用可能なデータセットを調べた結果、品質が低いと判断し、緊急対応、ヘッジ、多言語対応などを含む1100件の合成データを生成したという。その後、学習用に50倍にアップサンプリングし、HealthBenchでCodexを60%上回ったと述べている。

競技数学の例では、ml-internがGRPOの学習スクリプトを書き、A100 GPUを使ってHugging Face Spaces上で学習を実行したという。報酬値が上昇した後に崩れる様子を確認し、条件を変えた検証を重ねて改善したと説明している。

インターン課題ではBest-of-N手法を再現

Hugging FaceのLewis Tunstall氏は、同社のインターン向け持ち帰り課題をml-internに解かせた例も紹介している。課題は、推論時に複数の解答候補を生成して選ぶ手法に関する論文をもとに、Process Reward Model（PRM）を使ったBest-of-Nのベースラインを再現するものだった。

When I designed Hugging Face's take-home challenge for our last batch of interns, I wondered how long it would be before AI could ace it.

Well, today we gave the challenge to our ML Intern and it did a pretty good job!

The task: replicate a Best-of-N baseline with a PRM from… pic.twitter.com/3NcmZpZrBO
— Lewis Tunstall (@_lewtun) April 23, 2026

この結果は、Hugging Faceのブログで詳しく報告されている。ml-internはMATH-500の各問題について16通りの解答候補を生成し、PRMで各候補を評価した。採点には、論文の付録で示された方針に沿って、途中の推論ステップの値ではなく、最後のステップに対するPRMの予測値を解答全体のスコアとして使っている。そのうえで、同じ最終解答に到達した候補のスコアを合算するWeighted Best-of-Nを適用した結果、Greedyの45%に対し、65%の正答率になった。多数決は60%、標準的なBest-of-Nは55%だった。

公開後72時間で500件以上の研究プロジェクトが稼働

Aksel氏は4月24日、ml-internの公開後72時間にわたり、Hugging Face Spaces上で500件以上の自律型AI研究プロジェクトが常時動いていたと説明している。

For the last 72 hours since ml-intern launched we have had over 500+ autonomous AI research projects running on the Space at all times.

Some insane ones I saw:

1. A new AI paradigm from scratch — trying to replace transformers with a reasoning architecture based on energy… https://t.co/0qRqNQOVBQ
— Aksel (@akseljoonas) April 24, 2026

投稿では、ユーザーが実行した例として、トランスフォーマーをエネルギー最小化やビットワイズ演算に基づく推論アーキテクチャへ置き換えようとするプロジェクト、LoopLMとBitNet b1.58を組み合わせて深い推論と省メモリ化を両立させようとする試み、脳の視床皮質回路を参考にしたアテンション機構の設計などが挙げられている。

Aksel氏は、ユーザーが持ち込むユースケースは開発側の想定より幅広く印象的だと述べている。