【AIニュース】マルチモーダルの深化とエージェント評価・安全性の本格化


LLMがテキストを超えて音声・映像・3Dへと展開を加速しながら、一方でエージェントの安全性や人間への影響を問う研究が急増しています。今週は特に「マルチモーダルの深化」と「評価・安全性の本格化」という2つの流れが際立ちました。

NVIDIA × メリーランド大学:Audio Flamingo Next

NVIDIA とメリーランド大学の共同研究チームが Audio Flamingo Next(AF-Next) をオープンリリースしました(MarkTechPost)。Instruct・Think・Captioner の3バリアントで構成され、それぞれ一般 QA・多段階推論・詳細キャプションに特化しています。

ベンチマーク結果

AF-Next-Think は MMAU-Pro で 58.7% を記録し Gemini 2.5 Pro(57.4%)を上回りました。特に LongAudioBench では 73.9%(Gemini 2.5 Pro は 60.4%)と大差をつけており、最長 30 分の音声に対する時系列推論が強みです。インターネット規模のデータ(1M時間)で事前学習した初のオープン LALM という歴史的な位置づけでもあります。

Google Vantage:LLMで「コラボ力・創造性・批判的思考」を測る

Google Research が Vantage を発表しました(MarkTechPost)。単一の「Executive LLM」(Gemini 2.5 Pro/3.0)がチームメイト役の AI 複数名を演じ分け、人間との実際の対話からコラボレーション・創造性・批判的思考といった「耐久スキル」を評価するプロトコルです。

評価精度

188 名の参加者実験でコラボレーション評価の証拠率 92.4%、創造性タスクでは人間評価との相関係数 0.88 を達成。教育・採用・スキル開発など、LLM ベースの定性評価が実用ラインに近づいてきたことを示しています。

チャットボットが感情的絆を生む:OpenAI × MIT の RCT

DeepLearning.AI の The Batch(Apr 10, 2026号)が取り上げた OpenAI と MIT の共同研究では、ChatGPT の長期利用が孤独感を減らす一方、人間との社会的交流を減少させ感情的依存を高めることがランダム化比較試験(RCT)で示されました。6000 人の重度利用ユーザーによる 300 万件の音声会話を分析した大規模なもので、エージェントが日常に溶け込む時代における倫理設計の重要性を改めて問いかけています。

arXiv 注目論文:エージェントの並列スケーリングと協調

長期タスクの並列スケーリング

「Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks」arXiv:2604.11753、Princeton)は、長大なコンテキストを分割・集約することで品質を維持しながら並列処理できる手法の提案です。長期タスクにおけるエージェントのスケール戦略を論じており、マルチエージェントアーキテクチャの実装に直結します。

LLM グループ内の協調と選挙制リーダーシップ

「Evaluating Cooperation in LLM Social Groups through Elected Leadership」arXiv:2604.11721)は、複数 LLM のグループに「選挙によるリーダー選出」を導入したとき協調性がどう変化するかを評価した研究です。マルチエージェント設計における意思決定構造の研究として、組織論的なアプローチが新鮮です。

MiniMax M2.1:エージェントコーディング特化モデルの更新

MiniMax が M2.1 をリリースしました(MarkTechPost)。先代 M2 をベースに複数のコーディング言語対応・API 機能を強化したバージョンで、エージェントと組み合わせたコーディング用途を主眼に設計されています。M2.7(SWE-Pro 56.22%)とあわせて、同社のエージェント特化路線が鮮明になってきました。

まとめ

音声・3D・テキストを横断するマルチモーダルの成熟が続く一方、エージェントをどう評価し・どう安全に動かすかという問いが研究の主軸になりつつあります。AF-Next のようなオープンモデルの台頭は、クローズドモデルへの依存を減らす選択肢として今後も注目です。