ベンチマーク

タグ: ベンチマーク

【AIニュース】オープン最強モデル登場とエージェント速度競争の新局面

NVIDIAが550BパラメータのオープンモデルNemotron 3 Ultraを公開し、Gemini 3.5 FlashがGA達成。Claude Opus 4.8も主要ベンチマークで全モデルトップに立つなど、エージェント向けLLM競争が一気に加速した。

【AIニュース】ベンチマーク再設計と“道具立て”の自動進化が示す、エージェント実用化の次の壁

AIエージェント評価が『単発の正解率』から『長期タスクの信頼性』へ移行しつつあります。加えて、エージェントを強くする“ハーネス”自体を自動で改良する研究も登場しました。

【AIニュース】音声マルチモーダルの拡張と、エージェント運用・安全性の実装が加速

音声を長時間・高精度に扱う大規模音声言語モデルの進展と、AIエージェントを本番で回すための運用基盤・安全性検証の研究が加速。研究と実装の距離が一段と縮まっています。