【AIニュース】ベンチマーク再設計と“道具立て”の自動進化が示す、エージェント実用化の次の壁AIエージェント評価が『単発の正解率』から『長期タスクの信頼性』へ移行しつつあります。加えて、エージェントを強くする“ハーネス”自体を自動で改良する研究も登場しました。
【AIニュース】音声マルチモーダルの拡張と、エージェント運用・安全性の実装が加速音声を長時間・高精度に扱う大規模音声言語モデルの進展と、AIエージェントを本番で回すための運用基盤・安全性検証の研究が加速。研究と実装の距離が一段と縮まっています。