"評価"について【AIニュース】ベンチマーク再設計と“道具立て”の自動進化が示す、エージェント実用化の次の壁AIエージェント評価が『単発の正解率』から『長期タスクの信頼性』へ移行しつつあります。加えて、エージェントを強くする“ハーネス”自体を自動で改良する研究も登場しました。 AIニュース AI LLM AIエージェント ベンチマーク ソフトウェア開発 評価
【AIニュース】ベンチマーク再設計と“道具立て”の自動進化が示す、エージェント実用化の次の壁AIエージェント評価が『単発の正解率』から『長期タスクの信頼性』へ移行しつつあります。加えて、エージェントを強くする“ハーネス”自体を自動で改良する研究も登場しました。 AIニュース AI LLM AIエージェント ベンチマーク ソフトウェア開発 評価