Hugging Faceは2026年4月21日、機械学習
Introducing ml-intern, the agent that just automated the post-training team @huggingface
— Aksel (@akseljoonas) April 21, 2026
It's an open-source implementation of the real research loop that our ML researchers do every day. You give it a prompt, it researches papers, goes through citations, implements ideas in GPU… pic.twitter. com/ USLWv6lKz9
Hugging Faceエコシステムと連携し、論文調査から学習まで処理
ml-internはCLIとWebアプリで提供される。CLI版はGitHubリポジトリで公開されており、READMEでは
Hugging FaceのAksel Joonas Reedi氏の公開時の上記投稿によると、ml-internはarXivやHugging Face Papersで論文を探し、引用グラフをたどりながら手法やデータセットを調べる。さらに、Hugging Face Hub上のデータセットを確認し、学習に使える形へ整形する処理にも対応する。
学習環境については、ローカルGPUが利用できない場合にHugging Face Jobsでトレーニングジョブを起動し、実行状況を監視できるという。評価出力を読み取り、失敗原因を診断し、必要に応じて再学習する流れにも対応しているとのこと。
Web版はHugging Face Spaces上のアプリとして利用できる。
公開後48時間で50億トークンを消費
Aksel氏は別の投稿で、ml-internは公開後48時間で50億トークンを消費し、1日あたりのコストが1万5,000ドルに達したと説明している。この投稿時点では、無料枠で利用できるClaude Opusのセッションは1日2回に制限され、制限に達した後もKimi、MiniMax、GLMといった代替モデルは利用できるとしていた。
Opusを継続的に使いたいユーザーには、月額9ドルの
GPQA、HealthBench、競技数学での検証例を紹介
公開時の投稿では、ml-internを使った事例も紹介されている。
科学的推論のベンチマークGPQAでは、公式ベンチマーク論文の引用をたどり、OpenScienceやNemoTron-CrossThinkを見つけたうえで、ARC、SciQ、MMLUから難易度でフィルタリングした7種類のデータセットを追加したという。その後、Qwen3-1.
医療領域の検証では、利用可能なデータセットを調べた結果、品質が低いと判断し、緊急対応、ヘッジ、多言語対応などを含む1100件の合成データを生成したという。その後、学習用に50倍にアップサンプリングし、HealthBenchでCodexを60%上回ったと述べている。
競技数学の例では、ml-internがGRPOの学習スクリプトを書き、A100 GPUを使ってHugging Face Spaces上で学習を実行したという。報酬値が上昇した後に崩れる様子を確認し、条件を変えた検証を重ねて改善したと説明している。
インターン課題ではBest-of-N手法を再現
Hugging FaceのLewis Tunstall氏は、同社のインターン向け持ち帰り課題をml-internに解かせた例も紹介している。課題は、推論時に複数の解答候補を生成して選ぶ手法に関する論文をもとに、Process Reward Model
When I designed Hugging Face's take-home challenge for our last batch of interns, I wondered how long it would be before AI could ace it.
— Lewis Tunstall (@_lewtun) April 23, 2026
Well, today we gave the challenge to our ML Intern and it did a pretty good job!
The task: replicate a Best-of-N baseline with a PRM from… pic.twitter. com/ 3NcmZpZrBO
この結果は、Hugging Faceのブログで詳しく報告されている。ml-internはMATH-500の各問題について16通りの解答候補を生成し、PRMで各候補を評価した。採点には、論文の付録で示された方針に沿って、途中の推論ステップの値ではなく、最後のステップに対するPRMの予測値を解答全体のスコアとして使っている。そのうえで、同じ最終解答に到達した候補のスコアを合算するWeighted Best-of-Nを適用した結果、Greedyの45%に対し、65%の正答率になった。多数決は60%、標準的なBest-of-Nは55%だった。
公開後72時間で500件以上の研究プロジェクトが稼働
Aksel氏は4月24日、ml-internの公開後72時間にわたり、Hugging Face Spaces上で500件以上の自律型AI研究プロジェクトが常時動いていたと説明している。
For the last 72 hours since ml-intern launched we have had over 500+ autonomous AI research projects running on the Space at all times.
— Aksel (@akseljoonas) April 24, 2026
Some insane ones I saw:
1. A new AI paradigm from scratch — trying to replace transformers with a reasoning architecture based on energy… https://t. co/ 0qRqNQOVBQ
投稿では、ユーザーが実行した例として、トランスフォーマーをエネルギー最小化やビットワイズ演算に基づく推論アーキテクチャへ置き換えようとするプロジェクト、LoopLMとBitNet b1.
Aksel氏は、ユーザーが持ち込むユースケースは開発側の想定より幅広く印象的だと述べている。