<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>ベンチマーク on hagizo.io</title><link>https://ha.gizwoo.com/tags/%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF/</link><description>Recent content in ベンチマーク on hagizo.io</description><generator>Hugo -- gohugo.io</generator><language>en</language><lastBuildDate>Wed, 20 May 2026 20:31:12 +0900</lastBuildDate><atom:link href="https://ha.gizwoo.com/tags/%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF/index.xml" rel="self" type="application/rss+xml"/><item><title>【AIニュース】ベンチマーク再設計と“道具立て”の自動進化が示す、エージェント実用化の次の壁</title><link>https://ha.gizwoo.com/agent-benchmarks-harnesses-9bkgwwfm1q/</link><pubDate>Thu, 30 Apr 2026 08:01:00 +0900</pubDate><guid>https://ha.gizwoo.com/agent-benchmarks-harnesses-9bkgwwfm1q/</guid><description>&lt;p&gt;AIエージェントの話題は、派手なデモから「継続運用で壊れないか」「再現性よく成果を出せるか」という地味で難しい論点に移ってきました。今週は、(1) エージェント能力を測るベンチマークの再設計、(2) エージェントを取り巻く“道具立て（ハーネス）”そのものを自動改良する研究、(3) 企業業務ど真ん中の“データ可視化”を現実的に評価する指標の登場、という3点がまとまって見えてきます。&lt;/p&gt;
&lt;h2 id="1-何を測るべきかが更新エージェント評価は信頼性の競争へ"&gt;1) 「何を測るべきか」が更新：エージェント評価は“信頼性”の競争へ
&lt;/h2&gt;&lt;p&gt;MarkTechPostは、エージェントの実力を測る上で重要な7つのベンチマーク（SWE-bench Verified、GAIA、WebArena、τ-bench、ARC-AGI、OSWorld、AgentBench）を整理し、「単一スコアでの序列化」ではなく「用途別に複数軸で見る」必要性を強調しています（&lt;a class="link" href="https://www.marktechpost.com/2026/04/26/top-7-benchmarks-that-actually-matter-for-agentic-reasoning-in-large-language-models/" target="_blank" rel="noopener"
 &gt;MarkTechPost&lt;/a&gt;）。&lt;/p&gt;
&lt;p&gt;特に重要なのは、正解率よりも「同じことを繰り返し成功できるか」という再現性です。たとえばτ-benchは、同一タスクを複数回試行したときの成功率（pass^k）で“信頼性の劣化”を露わにします（&lt;a class="link" href="https://www.marktechpost.com/2026/04/26/top-7-benchmarks-that-actually-matter-for-agentic-reasoning-in-large-language-models/" target="_blank" rel="noopener"
 &gt;MarkTechPost&lt;/a&gt;）。現場の自動化で怖いのは、平均点の高さではなく「たまに致命的に外す」ことなので、この方向性は実務に直結します。&lt;/p&gt;
&lt;h3 id="実用上の示唆評価は平均値から下振れ耐性へ"&gt;実用上の示唆：評価は“平均値”から“下振れ耐性”へ
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;PoC段階で見栄えの良い単発成功ではなく、「同一条件で何回回しても同等品質か」をKPIにする（pass^kや分散の監視）。&lt;/li&gt;
&lt;li&gt;ベンチマーク結果を読むときは、モデル差より先に“足回り”（ツール、再試行回数、実行環境、プロンプト規約）が揃っているかを確認する（&lt;a class="link" href="https://www.marktechpost.com/2026/04/26/top-7-benchmarks-that-actually-matter-for-agentic-reasoning-in-large-language-models/" target="_blank" rel="noopener"
 &gt;MarkTechPost&lt;/a&gt;）。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="2-モデルだけでなくハーネスが主戦場にcoding-agentは運用設計で伸びる"&gt;2) モデルだけでなく“ハーネス”が主戦場に：Coding Agentは運用設計で伸びる
&lt;/h2&gt;&lt;p&gt;arXivの「Agentic Harness Engineering（AHE）」は、コーディングエージェントの性能を左右する“ハーネス”（リポジトリ操作、ツール呼び出し、評価・実行環境、ログの取り方等）を、観測可能性（observability）を軸に自動で進化させる枠組みを提案しています（&lt;a class="link" href="https://arxiv.org/abs/2604.25850" target="_blank" rel="noopener"
 &gt;arXiv:2604.25850&lt;/a&gt;）。&lt;/p&gt;
&lt;p&gt;ここでのポイントは「ハーネスの編集→実行ログの要約→次の編集意思決定」を、人間の職人芸ではなく“検証可能な契約”として回す設計です。AHEはTerminal-Bench 2でpass@1を69.7%から77.0%へ引き上げ、さらにSWE-bench-verifiedにも転移したと報告しています（&lt;a class="link" href="https://arxiv.org/abs/2604.25850" target="_blank" rel="noopener"
 &gt;arXiv:2604.25850&lt;/a&gt;）。&lt;/p&gt;
&lt;h3 id="実用上の示唆llm導入はモデル選定より計測と改良のループ設計"&gt;実用上の示唆：LLM導入は「モデル選定」より「計測と改良のループ設計」
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;エージェント導入の投資対効果は、モデルの世代差よりも「ログが取れて、失敗原因が分類できて、改善が継続できる」かで決まる。&lt;/li&gt;
&lt;li&gt;うまくいくチームは、プロンプトやツール選定を“成果物”ではなく“プロダクト”として運用し、改善履歴と仮説検証を資産化する。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="3-エンタープライズの現実に寄せた評価データ可視化エージェントの難しさが定量化"&gt;3) エンタープライズの現実に寄せた評価：データ可視化エージェントの難しさが定量化
&lt;/h2&gt;&lt;p&gt;「DV-World」は、スプレッドシート上の操作や既存可視化の改変、曖昧要求に対する意図合わせまで含めた“現実のデータ可視化業務”を、260タスクで評価するベンチマークを提示しています（&lt;a class="link" href="https://arxiv.org/abs/2604.25914" target="_blank" rel="noopener"
 &gt;arXiv:2604.25914&lt;/a&gt;）。従来の「コード生成して終わり」型の評価では落ちやすい、診断・修正やコミュニケーションの要素を入れているのが特徴です（&lt;a class="link" href="https://arxiv.org/abs/2604.25914" target="_blank" rel="noopener"
 &gt;arXiv:2604.25914&lt;/a&gt;）。&lt;/p&gt;
&lt;p&gt;結果として、最先端モデルでも総合性能が50%未満と報告され、可視化業務が“正しさ（数値整合）”と“意味（意図・表現）”の両面で難しいことが改めて示されました（&lt;a class="link" href="https://arxiv.org/abs/2604.25914" target="_blank" rel="noopener"
 &gt;arXiv:2604.25914&lt;/a&gt;）。&lt;/p&gt;
&lt;h3 id="実用上の示唆可視化は生成より検証説明合意が本体"&gt;実用上の示唆：可視化は「生成」より「検証・説明・合意」が本体
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;可視化系エージェントを業務投入するなら、チャート生成をゴールにせず「指標定義の確認」「前提の説明」「異常値の指摘」「修正提案」まで含めたワークフローを設計する。&lt;/li&gt;
&lt;li&gt;“MLLM-as-a-Judge”のような自動採点に頼りきらず、数値整合（table-value alignment）のような機械的チェックを同時に走らせる二重化が有効（&lt;a class="link" href="https://arxiv.org/abs/2604.25914" target="_blank" rel="noopener"
 &gt;arXiv:2604.25914&lt;/a&gt;）。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="まとめ次の勝負はモデルの賢さより失敗を前提にした設計"&gt;まとめ：次の勝負は「モデルの賢さ」より「失敗を前提にした設計」
&lt;/h2&gt;&lt;p&gt;ベンチマークが信頼性（pass^k）や実環境操作へ寄っていくほど、エージェントは“平均性能の高さ”だけでは勝てなくなります。AHEのようにハーネスを改善し続ける仕組み、DV-Worldのように現実業務の痛点を測る指標、そして複数ベンチマークで弱点を特定して潰す運用が、実用化の成否を分ける局面に入っています。&lt;/p&gt;
&lt;p&gt;参考リンク:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Top 7 Benchmarks That Actually Matter&amp;hellip;（MarkTechPost）: &lt;a class="link" href="https://www.marktechpost.com/2026/04/26/top-7-benchmarks-that-actually-matter-for-agentic-reasoning-in-large-language-models/" target="_blank" rel="noopener"
 &gt;https://www.marktechpost.com/2026/04/26/top-7-benchmarks-that-actually-matter-for-agentic-reasoning-in-large-language-models/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Agentic Harness Engineering（arXiv）: &lt;a class="link" href="https://arxiv.org/abs/2604.25850" target="_blank" rel="noopener"
 &gt;https://arxiv.org/abs/2604.25850&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;DV-World（arXiv）: &lt;a class="link" href="https://arxiv.org/abs/2604.25914" target="_blank" rel="noopener"
 &gt;https://arxiv.org/abs/2604.25914&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item><item><title>【AIニュース】音声マルチモーダルの拡張と、エージェント運用・安全性の実装が加速</title><link>https://ha.gizwoo.com/audio-agents-safety-long-u45adfg3tu/</link><pubDate>Wed, 15 Apr 2026 08:27:00 +0900</pubDate><guid>https://ha.gizwoo.com/audio-agents-safety-long-u45adfg3tu/</guid><description>&lt;p&gt;AIの話題は「モデルが賢くなる」だけでなく、現場で使える形に落とし込む&amp;quot;運用&amp;quot;と、事故を起こさないための&amp;quot;検証&amp;quot;が同時に進むフェーズに入りました。今回は、音声マルチモーダルの拡張、推論評価の強化、エージェント安全性の最前線をより深く掘り下げます。&lt;/p&gt;
&lt;h2 id="音声を長く深く理解するaf-next"&gt;音声を&amp;quot;長く・深く&amp;quot;理解するAF-Next
&lt;/h2&gt;&lt;p&gt;NVIDIAとUniversity of Marylandの研究者らが、オープンな大規模音声言語モデル &lt;strong&gt;Audio Flamingo Next（AF-Next）&lt;/strong&gt; を公開しました（&lt;a class="link" href="https://www.marktechpost.com/nvidia-and-the-university-of-maryland-researchers-released-audio-flamingo-next-af-next-a-super-powerful-and-open-large-audio-language-model/" target="_blank" rel="noopener"
 &gt;MarkTechPost&lt;/a&gt;）。Instruct・Think・Captioner の3バリアントで構成され、音声QA・多段階推論・詳細キャプションをそれぞれ専門に担う設計です。&lt;/p&gt;
&lt;h3 id="ベンチマークgemini-25-proを上回る"&gt;ベンチマーク：Gemini 2.5 Proを上回る
&lt;/h3&gt;&lt;p&gt;AF-Next-Think は MMAU-Pro で &lt;strong&gt;58.7%&lt;/strong&gt; を記録し Gemini 2.5 Pro（57.4%）を超えました。さらに LongAudioBench では &lt;strong&gt;73.9%&lt;/strong&gt;（Gemini 2.5 Pro は 60.4%）と大差をつけており、最長30分の音声に対する時系列推論が特に強いです。インターネット規模の音声データ（1M時間）で事前学習した初のオープン LALM という点でも、研究・商用ともに参照点になる存在です。&lt;/p&gt;
&lt;h3 id="実用上の意味"&gt;実用上の意味
&lt;/h3&gt;&lt;p&gt;音声は画像よりも時間軸の扱いが難しく、「長い会議」「カスタマーサポート通話」「動画・配信」などがボトルネックになりがちです。長時間音声の理解・要約・根拠提示が改善することで、議事録作成や品質管理、コンテンツ制作の自動化が現実ラインに近づきます。オープンモデルとして公開されているため、ローカル環境や自社インフラへの組み込みも選択肢に入ります。&lt;/p&gt;
&lt;h2 id="推論評価の成熟general365-ベンチマーク"&gt;推論評価の成熟：General365 ベンチマーク
&lt;/h2&gt;&lt;p&gt;LLMの推論能力を多面的に評価するベンチマーク &lt;strong&gt;General365&lt;/strong&gt; が提案されました（&lt;a class="link" href="https://arxiv.org/abs/2604.11778" target="_blank" rel="noopener"
 &gt;arXiv:2604.11778&lt;/a&gt;）。単発のクイズ的タスクではなく、幅広い推論タスクを体系的に束ねる設計で、モデルの「どの能力がどれだけ強いか」を要件として定義しやすくなります。&lt;/p&gt;
&lt;h3 id="なぜ今ベンチマーク改革なのか"&gt;なぜ今ベンチマーク改革なのか
&lt;/h3&gt;&lt;p&gt;SWE-bench Verified や MMAU-Pro のような特化型ベンチマークが乱立する中、横断的な比較が難しくなっています。General365 が普及すれば、モデル選定の根拠を「総合推論スコア」という単一軸で語れるようになり、プロダクト側の意思決定がシンプルになる可能性があります。評価の標準化は、モデル競争の次のステージを規定する重要な動きです。&lt;/p&gt;
&lt;h2 id="aiエージェントの安全性検証が本格化"&gt;AIエージェントの安全性検証が本格化
&lt;/h2&gt;&lt;p&gt;多数のエージェント実行ログ（トレース）から安全違反を検知するフレームワーク &lt;strong&gt;「Detecting Safety Violations Across Many Agent Traces」&lt;/strong&gt; が公開されました（&lt;a class="link" href="https://arxiv.org/abs/2604.11806" target="_blank" rel="noopener"
 &gt;arXiv:2604.11806&lt;/a&gt;）。エージェントはツール実行や外部環境との相互作用が増えるため、テキスト生成だけの評価では不十分で、「行動列の監査・異常検知」が実運用の要になります。&lt;/p&gt;
&lt;h3 id="運用面の動き管理型エージェント基盤の台頭"&gt;運用面の動き：管理型エージェント基盤の台頭
&lt;/h3&gt;&lt;p&gt;コミュニティでは、エージェント運用を簡素化する管理型プラットフォームの話題が増えています。VentureBeat では Anthropic の Claude Managed Agents について取り上げられ（&lt;a class="link" href="https://venturebeat.com/category/ai/" target="_blank" rel="noopener"
 &gt;VentureBeat&lt;/a&gt;）、Hacker News でも Claude Code や「プロンプトをワンクリックツール化する」流れが注目を集めています（&lt;a class="link" href="https://news.ycombinator.com/" target="_blank" rel="noopener"
 &gt;Hacker News&lt;/a&gt;）。エージェントが「動く」だけでなく「管理される」インフラとして成熟しつつある段階です。&lt;/p&gt;
&lt;h3 id="mcp-との接点"&gt;MCP との接点
&lt;/h3&gt;&lt;p&gt;Model Context Protocol（MCP）を通じた外部ツール連携も普及が進んでおり、エージェントが安全に外部サービスを呼び出すための認証・権限管理の設計が新たな課題として浮上しています。安全違反検知フレームワークとMCPベースのアーキテクチャを組み合わせた実装が、今後の標準的な構成になっていくと考えられます。&lt;/p&gt;
&lt;h2 id="arxiv-追加注目論文並列スケーリングとllm協調"&gt;arXiv 追加注目論文：並列スケーリングとLLM協調
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;「Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks」&lt;/strong&gt;（&lt;a class="link" href="https://arxiv.org/abs/2604.11753" target="_blank" rel="noopener"
 &gt;arXiv:2604.11753&lt;/a&gt;、Princeton）は、長大なコンテキストを分割・集約することで品質を維持しながら並列処理するアプローチです。長期タスクのスケール戦略を体系化しており、マルチエージェント設計の実装者にとって参照価値が高い内容です。&lt;/p&gt;
&lt;p&gt;また &lt;strong&gt;「Evaluating Cooperation in LLM Social Groups through Elected Leadership」&lt;/strong&gt;（&lt;a class="link" href="https://arxiv.org/abs/2604.11721" target="_blank" rel="noopener"
 &gt;arXiv:2604.11721&lt;/a&gt;）は、複数 LLM に選挙制リーダーを導入した際の協調性変化を検証した研究で、エージェント群の意思決定構造をどう設計するかという問いに組織論的な視点をもたらしています。&lt;/p&gt;
&lt;h2 id="まとめ"&gt;まとめ
&lt;/h2&gt;&lt;p&gt;音声マルチモーダルは&amp;quot;長時間・高精度&amp;quot;へ、推論評価は&amp;quot;横断的標準化&amp;quot;へ、エージェントは&amp;quot;運用・監査・安全性&amp;quot;へ。モデルサイズの競争よりも、データ設計・評価設計・安全実装の差が成果を左右する局面になっています。&lt;/p&gt;</description></item></channel></rss>