<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>コスト on hagizo.io</title><link>https://ha.gizwoo.com/tags/%E3%82%B3%E3%82%B9%E3%83%88/</link><description>Recent content in コスト on hagizo.io</description><generator>Hugo -- gohugo.io</generator><language>en</language><lastBuildDate>Wed, 20 May 2026 20:31:12 +0900</lastBuildDate><atom:link href="https://ha.gizwoo.com/tags/%E3%82%B3%E3%82%B9%E3%83%88/index.xml" rel="self" type="application/rss+xml"/><item><title>【AIニュース】推論コストの激変とインフラ成熟——エージェント時代の“地盤”が固まる</title><link>https://ha.gizwoo.com/inference-cost-infra-agent-r3vwx8kn5j/</link><pubDate>Mon, 11 May 2026 09:00:00 +0900</pubDate><guid>https://ha.gizwoo.com/inference-cost-infra-agent-r3vwx8kn5j/</guid><description>&lt;p&gt;モデルの性能差が縮まるにつれ、競争の重心は「どれだけ賢いか」から「どこで、いくらで、どう動かすか」へ移っています。今週は、DeepSeek V4がオープンソースで性能と価格の常識を塗り替え、CloudflareがエージェントのためのAIインフラを本格整備し、さらにAIが数学研究に“共同研究者”として参加する事例が出てきた週でした。個別モデルの優劣より、インフラと経済性の設計がプロダクトの持続性を左右し始めています。&lt;/p&gt;
&lt;h2 id="deepseek-v4オープンソースが20倍のコスト差を現実にした"&gt;DeepSeek V4：オープンソースが“20倍のコスト差”を現実にした
&lt;/h2&gt;&lt;p&gt;DeepSeek V4は2026年4月24日にリリースされ、MITライセンスの2バリアント（V4-Pro・V4-Flash）として公開されました（&lt;a class="link" href="https://api-docs.deepseek.com/news/news260424" target="_blank" rel="noopener"
 &gt;DeepSeek API Docs&lt;/a&gt;）。100万トークンのコンテキストウィンドウを持ち、V4-ProはSWE-benchコーディングベンチマークでClaude Opus 4.6とわずか0.2ポイント差の性能です（&lt;a class="link" href="https://dev.to/mixture-of-experts/deepseek-v4-whats-inside-how-it-compares-and-where-it-actually-wins-5ba6" target="_blank" rel="noopener"
 &gt;DEV Community&lt;/a&gt;）。&lt;/p&gt;
&lt;p&gt;注目すべきはコストです。V4-Proは100万トークンあたり$3.48、Claude Opus 4.6は$75——約&lt;strong&gt;21倍の価格差&lt;/strong&gt;がありながら、コーディングタスクではほぼ同等の性能を発揮します（&lt;a class="link" href="https://medium.com/@cognidownunder/deepseek-v4-just-made-claude-look-expensive-and-the-gap-is-getting-worse-989e100d88b4" target="_blank" rel="noopener"
 &gt;Medium&lt;/a&gt;）。エージェント開発の現場では、すでに「トラフィックの70%をDeepSeek V4-Flash、25%をClaude Sonnet 4.6、5%をOpus 4.7」という分割運用が報告されています（&lt;a class="link" href="https://www.buildfastwithai.com/blogs/best-ai-models-may-2026-leaderboard" target="_blank" rel="noopener"
 &gt;BuildFastWithAI&lt;/a&gt;）。&lt;/p&gt;
&lt;h3 id="実務上の示唆コストはモデル選定ではなくルーティング設計で決まる"&gt;実務上の示唆：コストは「モデル選定」ではなく「ルーティング設計」で決まる
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;単一のプレミアムモデルをすべてのリクエストに使う時代は終わりつつあります。タスクの難易度・リスク・レイテンシ要件に応じてモデルをルーティングする設計が、コストと品質のトレードオフを最適化します。&lt;/li&gt;
&lt;li&gt;オープンウェイトモデルの採用では「誰がホストするか」「SLOをどう担保するか」が新たな設計項目になります。MITライセンスはコードの自由度を与えますが、インフラコスト・セキュリティ・バージョン管理は自社で抱える必要があります。&lt;/li&gt;
&lt;li&gt;コーディング以外のタスク（長文分析、推論、多言語対応）では性能差が広がる場合があります。ベンチマークスコアではなく、自社のタスク分布での評価が、ルーティング戦略の基盤になります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="cloudflareがagents-weekでエージェント専用インフラを整備"&gt;CloudflareがAgents Weekでエージェント専用インフラを整備
&lt;/h2&gt;&lt;p&gt;Cloudflareは「Agents Week 2026」でエージェント運用を前提としたインフラ群を一斉公開しました（&lt;a class="link" href="https://blog.cloudflare.com/agents-week-in-review/" target="_blank" rel="noopener"
 &gt;Cloudflare Blog&lt;/a&gt;）。中核は独自の推論エンジン&lt;strong&gt;Infire&lt;/strong&gt;で、Rustで実装されており、複数GPUをまたいでLLMを効率的に実行します（&lt;a class="link" href="https://blog.cloudflare.com/cloudflares-most-efficient-ai-inference-engine/" target="_blank" rel="noopener"
 &gt;Cloudflare Blog&lt;/a&gt;）。&lt;/p&gt;
&lt;p&gt;InfireはプリフィルとデコードをGPUで分離する「分離プリフィル（disaggregated prefill）」を採用し、各ステージを独立してスケールできる設計です（&lt;a class="link" href="https://www.infoq.com/news/2026/05/cloudflare-llm-infrastructure/" target="_blank" rel="noopener"
 &gt;InfoQ&lt;/a&gt;）。この最適化により、Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動作させながら、KVキャッシュのためのメモリを確保できています（&lt;a class="link" href="https://www.infoq.com/news/2026/05/cloudflare-llm-infrastructure/" target="_blank" rel="noopener"
 &gt;InfoQ&lt;/a&gt;）。330都市のデータセンター網を活かし、ユーザーと推論エンドポイントの双方に近い位置でAI Gatewayを機能させる設計です（&lt;a class="link" href="https://blog.cloudflare.com/ai-platform/" target="_blank" rel="noopener"
 &gt;Cloudflare Blog&lt;/a&gt;）。&lt;/p&gt;
&lt;h3 id="実務上の示唆エッジ推論はレイテンシより状態管理が先の課題"&gt;実務上の示唆：エッジ推論は「レイテンシ」より「状態管理」が先の課題
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;エージェントのユースケースでは、推論の低レイテンシと同等かそれ以上に、&lt;strong&gt;ツール呼び出し結果や会話状態の管理&lt;/strong&gt;が設計の要になります。インフラを選ぶ際は、「速い」だけでなく「状態をどこに、どう持つか」の仕様を確認するべきです。&lt;/li&gt;
&lt;li&gt;分離プリフィル設計はスループット効率を高める一方、バースト時の挙動やコールドスタートのレイテンシに特性が出やすい構造です。SLO設計では、平均レイテンシだけでなくP99・コールドスタート時間を要件に含めることが重要です。&lt;/li&gt;
&lt;li&gt;CloudflareのようなグローバルCDN事業者がAI推論を取り込む流れは、「モデルは外、インフラは既存CDNで」という調達モデルを現実的にします。将来の乗り換えコストと、ベンダーロックインのリスクを今の時点で整理しておく価値があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="aiが数学の共同研究者にai-co-mathematician"&gt;AIが数学の“共同研究者”に：AI Co-Mathematician
&lt;/h2&gt;&lt;p&gt;arXivに投稿された「AI Co-Mathematician」（&lt;a class="link" href="https://arxiv.org/html/2605.06651v1" target="_blank" rel="noopener"
 &gt;arXiv:2605.06651&lt;/a&gt;）は、フロンティアモデルを補完する位置付けで、ステートフルなアーキテクチャを持つエージェント型AIを数学研究に応用した取り組みです。AlphaProofやAletheiaのような自律推論器を動的に呼び出し、長時間かかる証明探索や仮説生成を支援します。&lt;/p&gt;
&lt;p&gt;単一の問題を解く「ツール」ではなく、研究者とともに仮説→検証→修正のサイクルを回す「共同研究者」として設計されている点が、従来の数学AIとの違いです。&lt;/p&gt;
&lt;h3 id="実務上の示唆専門領域エージェントは正確さより検証可能性が鍵"&gt;実務上の示唆：専門領域エージェントは「正確さ」より「検証可能性」が鍵
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;数学のような検証が明確な領域でエージェントが力を発揮できるのは、出力の正否を人間が（あるいはシステムが）確認できるからです。あいまいな領域にエージェントを展開する際は、&lt;strong&gt;何をもって成功とするかを先に定義する&lt;/strong&gt;ことが、エラーの見逃しを防ぎます。&lt;/li&gt;
&lt;li&gt;長時間タスク（証明探索、文献調査、シミュレーション）をエージェントに委ねるには、途中状態の保存・再開と、部分的な失敗からの回復設計が不可欠です。「最後まで動いたか」だけを評価する設計では、長時間タスクの品質管理ができません。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="まとめ地盤の整備が次のエージェント競争を決める"&gt;まとめ：地盤の整備が、次のエージェント競争を決める
&lt;/h2&gt;&lt;p&gt;DeepSeek V4のコスト破壊（&lt;a class="link" href="https://api-docs.deepseek.com/news/news260424" target="_blank" rel="noopener"
 &gt;DeepSeek&lt;/a&gt;）、CloudflareのエッジAIインフラ成熟（&lt;a class="link" href="https://blog.cloudflare.com/agents-week-in-review/" target="_blank" rel="noopener"
 &gt;Cloudflare&lt;/a&gt;）、専門領域への浸透（&lt;a class="link" href="https://arxiv.org/html/2605.06651v1" target="_blank" rel="noopener"
 &gt;arXiv:2605.06651&lt;/a&gt;）——これらは、エージェントの「走る地盤」が急速に整備されていることを示しています。モデルの賢さが前提になりつつある今、インフラコスト・ルーティング設計・状態管理・検証可能性の整備が、プロダクトの持続的な競争力を決める局面に入っています。&lt;/p&gt;</description></item></channel></rss>