Cloudflare on hagizo.io

【AIニュース】Cloudflare推論技術の深化とAlibaba自社チップ×LLMの35時間自律エージェント

Fri, 22 May 2026 00:00:00 +0900

AIの進化は「どのモデルが賢いか」から「どこでどう動かすか」という問いへと移行しつつある。今週はその両極で注目の動きがあった。Cloudflareは自社のLLM推論スタック全体を公開し、エッジ（ユーザーに近いサーバーで処理する仕組み）でのLLM運用コストと速度を根本から変えうる技術を示した。一方でAlibabaは5月20日のCloud Summitで自社製 AIチップ「Zhenwu M890」と次世代モデル「Qwen3.7-Max」を発表し、1158回のツール呼び出しを含む 35時間完全自律のコーディングデモで業界を駆かせた。

Cloudflare：Rust製推論エンジン「Infire」と無損失圧縩22%圧縮でエッジLLMを加速

Cloudflareは5月、自社のLLM推論インフラの詳細をWorkers AIブログとUnweight研究論文で公開した。核心は三つの独自技術だ。

① Infire推論エンジン：Rust（メモリ安全性と高速性で知られるプログラミング言語）で書かれたCloudflare独自の推論エンジン。複数GPU対応を強化し、単一GPUのVRAM（グラフィックカードのメモリ）に収まらない大型モデルも実行できるようにした。Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動かすことを確認している。

② Unweight圧縮：LLMの重み（パラメータ）データをビット単位で再圧縮し、精度を一切落とさずに15〜22%削減する技術だ。BF16形式（機械学習でよく使われる浮動小数点形式）の数値を「符号・仮数部」と「指数部」に分離し、指数部をHuffman符号（出現頻度に応じて短いビット列を割り当てる古典的な圧縮手法）でまとめる。特別なハードウェアは不要で、既存のNVIDIA Hopper世代GPU（H100/H200）でそのまま動く。

③ Disaggregated Prefill（分離型プリフィル）：LLMが回答を生成する工程は大きく二段階に分かれる。まず入力テキスト全体を読んで内部状態（KVキャッシュ）を作る「プリフィル段階」、次に一トークンずつ出力する「デコード段階」だ。前者は計算集約型、後者はメモリ帯域幅集約型と性質が異なるため、それぞれ別の専用サーバーに分けて独立に最適化・スケールできるようにした。

CloudflareのWorkers AIは300超えのエッジロケーション（世界各地に設置されたサーバー拠点）でモデルを提供しており、これらの改善は同基盤に展開される予定だ。

実務上の示唆

Unweightの22%圧縮はGPU必要台数の削減に直結する。同じ台数で扱えるモデルサイズが上がるため、自社のクラウドコスト試算時に見込める余地が生まれた
Disaggregated Prefillは長いプロンプトを多用するユースケース（RAGや書類処理など）のレイテンシ改善に特に効く構成で、自社の推論スタックを設計する際の参考になる
エッジでのAI推論が実用的な選択肢になりつつあり、データを外部クラウドに送らずユーザー近くで処理する「エッジAI」設計の検討時期と言える
AWS・GCP・Azureなど競合が同様の最適化をどう追うかが次の注目点だ

Alibaba：Zhenwu M890チップとQwen3.7-Maxによる35時間自律コーディング

5月20〜21日に浙江省杭州で開かれたAlibaba Cloud Summitで、同社は三つの発表を一体として打ち出した。自社製 AIチップ「Zhenwu M890」、次世代モデル「Qwen3.7-Max」、そして128枚のM890を1ラックに収める「Panjiu AL128スーパーノードサーバー」だ。

Zhenwu M890の仕様：半導体子会T-Headが開発。前世代のZhenwu 810E比で性能3倍を謳い、HBM3メモリ144GB（前世代比50%増）、チップ間帯域800GB/sを備える。TrendForceの報道によれば、Panjiu AL128では64枚のM890を新設計の「ICN Switch 1.0」（25.6Tbpsの独自インターコネクト）で繋ぎ、チップ間通信レイテンシを150ナノ秒以下に抑えた。すでに560,000ユニットを業種合ょ20業種400社超に出荷済みと発表された。

Qwen3.7-Maxの特徴：コンテキストウィンドウ（一度に処理できるテキスト量）が前世代Qwen3.6-Max-Previewの25.6万トークンから100万トークン（小説数百冊分に相当）へ大幅拡大。高度なコーディングと長時間エージェントタスクに最適化されている。

そして最大の注目を集めたのが35時間デモだ。VentureBeatの報道によれば、Qwen3.7-MaxはZhenwu M890サーバー上で、自分が訓練データとして見たことのないM890のアーキテクチャに対し「アテンションカーネル（行列演算の中核部分）を最適化せよ」というタスクを与えられた。

35時間にわたって完全自律で動き続け、1158回のツール呼び出しと432回のカーネル評価を実施。コンパイルエラーを自己診断しながら5回の設計視直しを経て、最終的に10倍の高速化を達成した。AnthropicのClaude Codeなど外部エージェントハーネスとの連携にも対応する。

ベンチマーク面では、数学推論の「Apex Math Reasoning」においてQwen3.7-Maxが44.5点を記録し、Claude Opus-4.6 Maxの34.5点、DeepSeek V4-Proの38.3点を上回った。人類最難問集「Humanity’s Last Exam」の41.4点や現実的なコーディングエージェントベンチ「MCP-Atlas」の76.4点も発表された。なおこれらはすべてAlibaba自社発表の数値であり、独立機関による再現検証はまだ行われていない点に留意が必要だ。

実務上の示唆

35時間自律コーディングは「長期エージェント」の実用性を示す具体例として重要だ。未知のハードウェアに対して自己適応できる能力は、社内システム改善への応用可能性を持つ
Alibabaの垂直統合戦略（チップ→モデル→サーバー）は米中の半導体規制が続く中での「AI調達自律化」の一形態であり、日本企業の中長期調達リスク評価にも影響する
Qwen3.7-Maxの100万トークンコンテキストは実用的な長文処理基盤として今後評価される。法令集・技術仕様書・大規模コードベース全体を一括で扱うワークフローへの適合を検討する価値がある
ベンチマークは自社発表のみであり、独立評価が出るまで数値を過信しないよう注意が必要だ

まとめ

今週の二大ニュースはいずれも「モデルの知能」より「モデルを動かす基盤」に焦点が当たっていた。Cloudflareはエッジにおける推論効率を圧縮・分離・最適化の三本柱で改善し、AlibabaはチップからモデルまでのAIファクトリーを自前で完成させた。前者はコスト構造、後者は調達自律性という異なる問いへの答えだが、どちらも「AIを誰が・どこで・どのくらいのコストで動かすか」という実務上の核心に直結している。独自の推論インフラを持たない企業にとっても、これらの動向は自社のAI利用コストとベンダーロックインのリスクを再評価するきっかけになるはずだ。

【AIニュース】非トランスフォーマーの胎動と主権AI連合の形成

Mon, 18 May 2026 10:00:00 +0900

2026年5月、AI業界では「今までの常識が変わるかもしれない」という出来事がいくつも重なっている。これまでAIの主流だった「トランスフォーマー」という仕組みに代わる新モデルが商業デビューし、欧州では米国のAI大手に対抗する連合が生まれた。AIをより速く・安く動かす技術も進歩しており、企業の現場ではAIエージェントが実験から本番稼働へと移り始めている。

SubQ登場――「重い計算」を劇的に減らす新しいAI

マイアミのスタートアップSubquadratic社は2026年5月5日、新しいAIモデル「SubQ」を発表した。CEO Justin Dangel氏とCTO Alexander Whedon氏（元Meta GenAIヘッド）が率いる同社は、約29億円（2,900万ドル）の資金調達に成功し、会社の評価額は500億円規模とされる。

SubQの最大の特徴は「Subquadratic Sparse Attention（SSA）」と呼ぶ独自の仕組みだ。従来のトランスフォーマーは、扱う文章が長くなるほど計算量が急激に増える（2倍の長さで4倍の計算が必要になる）という欠点があった。SubQはこの増え方をほぼ「長さに比例する」レベルに抑えることができると主張している。

その結果、最大1,200万トークン（小説数百冊分に相当）という巨大なコンテキストを扱いながら、コストは同クラスのモデルの約5分の1になるという。注意計算の速度は最大52倍に達したとも主張しているが、これらの数値はあくまで自社発表のものだ。VentureBeatも報じているように、第三者による独立した検証はまだ行われていない。

過去にもMamba、RWKV、DeepSeek Sparse Attentionなど「計算を減らす」試みは多くあったが、実際のベンチマークで最前線の性能には届かないことが多かった。SubQが商業資金を背景にそこへ挑んでいる点は注目に値するが、まずは独立した性能評価を待ちたい。

実務上の示唆

長い文書やコードを丸ごと読ませるような使い方は、独立ベンチマークが出た後に比較検討する価値がある
モデルを選ぶ際は性能だけでなく、コスト構造（文章が長くなるほど割高になるか？）も確認する習慣をつけよう
「画期的な新技術」を名乗る製品は、第三者の検証が出てから本番に採用するのが安全だ

CohereとAleph Alphaが合併――「データを自国で管理したい」欧州の反撃

2026年4月下旬、カナダのCohere（評価額約1兆円）とドイツのAleph Alphaが合併を発表した。新会社の評価額は約3兆円規模で、ドイツの大手小売グループSchwarz Groupが約800億円（5億ユーロ）を出資して後押しする。

TechCrunchの記事によれば、この合併の狙いは単純な技術の足し算ではない。「AIに使うデータを国外に出したくない」という欧州政府・銀行・病院などへの訴求が核心だ。Aleph Alphaは欧州の防衛・公共分野に強く、Cohereは多言語対応と企業向けAPIの運用実績がある。組み合わせることで、GDPRなどの厳しいデータ規制に対応した「自国完結型」のAIサービスを提供できる稀有な存在になりうる。

これは「主権AI」と呼ばれる考え方――自分の国や組織でデータとAIを管理したい、という志向の広がりを示している。同時期にOpenAIはGPT-5.5をAPIで公開し、Grok 4.3（xAI）やGemini 3.1 Flash Lite（Google）もリリースされ、最前線モデルの競争は続いている。しかし欧州での動きは、その"外側"で起きている地域ごとの構造変化を示すものだ。

実務上の示唆

欧州でのAI活用を検討している日本企業は、この主権AI連合を選択肢の一つとして把握しておくとよい
米国のAIサービスだけに頼るリスクを減らしたい場合、欧州系の選択肢が実質的に広がった
日本でも「自国でデータを管理できるAI調達」の議論が進む可能性があり、早めに方針を考える価値がある

CloudflareがAI推論を改善――「遠くのサーバー」に頼らなくなる時代へ

Cloudflareは2026年5月、公式ブログでAI推論インフラの技術詳細を公開した。同社のWorkers AIは世界300以上の拠点でモデルを動かすサービスで、「ユーザーの近くで処理する」ことでレスポンスを速くする設計になっている。最近はオープンソースモデルKimi K2.5をプラットフォームに組み込み、速度を3倍に改善したという。

注目の技術は「Disaggregated Prefill（分離型プリフィル）」だ。AIが回答を生成する処理は大きく二段階に分かれる。最初の「入力を読み込んで整理する段階」（プリフィル）は計算量が多く、次の「実際に文字を出力する段階」（デコード）はメモリ使用量が多い。この二つは必要なリソースが異なるのに、従来は同じハードウェアで処理していたため効率が悪かった。Cloudflareはこれを別々の最適化されたシステムに分けることで、GPU（AI処理チップ）の使い方を大幅に改善した。

これが意味するのは「AIを使うのにビッグテックの巨大データセンターに頼らなくて済む」未来が近づいているということだ。医療や金融のように「データを外に出せない」業界でも、近くの拠点でAIを動かしやすくなる。

実務上の示唆

「応答が速いAIが必要」なアプリ（音声対話やリアルタイム翻訳など）は、エッジ推論（近くの拠点での処理）の採用を検討する価値が出てきた
大手クラウドだけでなく、エッジ型のAIインフラも選択肢に入れておくとアーキテクチャの幅が広がる
こうした効率化技術が広まれば、AI利用のコスト削減につながる可能性がある

AIエージェントが「実験」から「実際の仕事」へ

2026年5月、企業でのAIエージェント活用がPoC（試作・実証実験）の段階を超えて、本番の業務システムに組み込まれる事例が増えてきた。

ServiceNowとAccentureは共同プログラムを発表し、企業の既存システムにエージェントAIのワークフローを直接組み込む取り組みを開始した。金融インフラ企業Broadridgeも、後処理業務やクライアント対応で発生する「例外ケース」の処理をエージェントが自動でこなす機能を正式リリースしている。

Google CloudのAIエージェントレポートは「2026年末までに企業アプリの40%に専門エージェントが搭載される」と予測している。一方で同レポートは「既存の業務フローにそのままエージェントを重ねても、多くは失敗している」という厳しい現実も伝えている。うまくいくには業務フロー自体を見直すことが必要だという認識が、業界全体で共有されつつある。

技術トレンドとして「コンテキストエンジニアリング」という考え方が注目されている。AIへの指示文（プロンプト）をうまく書くことより一歩進んで、「エージェントにどのデータをどのタイミングで渡すか」という情報設計の全体を考える手法だ。エージェントの信頼性は、指示の巧みさよりも情報設計の質で決まるという見方が広まっている。

実務上の示唆

エージェントを本番に移すときは、業務の流れ自体を見直さないと効果が半減する
「どの情報をいつエージェントに渡すか」の設計（コンテキストエンジニアリング）を、導入計画の早い段階で考えることが重要だ
ServiceNow/Accentureのように既存の業務システムに直接組み込むパターンが増えれば、SaaSツールとの連携設計が競争力の差になってくる

まとめ

2026年5月のAI業界は、技術・地政学・インフラ・現場活用という四つの面で同時に大きな変化が起きている。SubQはトランスフォーマー一強の時代に初めて商業規模の挑戦状を叩きつけ、Cohere＋Aleph Alphaの合体は「データを自分たちで管理したい」という世界的な流れを形にした。Cloudflareの推論技術改善はAIをより身近な場所で動かせる環境を整え、企業の現場ではエージェントが「試してみる段階」から「毎日使うインフラ」へと変わりつつある。それぞれの変化はつながり合っており、AIとどう向き合うかを考えるうえで欠かせない視点を提供している。

【AIニュース】推論コストの激変とインフラ成熟——エージェント時代の“地盤”が固まる

Mon, 11 May 2026 09:00:00 +0900

モデルの性能差が縮まるにつれ、競争の重心は「どれだけ賢いか」から「どこで、いくらで、どう動かすか」へ移っています。今週は、DeepSeek V4がオープンソースで性能と価格の常識を塗り替え、CloudflareがエージェントのためのAIインフラを本格整備し、さらにAIが数学研究に“共同研究者”として参加する事例が出てきた週でした。個別モデルの優劣より、インフラと経済性の設計がプロダクトの持続性を左右し始めています。

DeepSeek V4：オープンソースが“20倍のコスト差”を現実にした

DeepSeek V4は2026年4月24日にリリースされ、MITライセンスの2バリアント（V4-Pro・V4-Flash）として公開されました（DeepSeek API Docs）。100万トークンのコンテキストウィンドウを持ち、V4-ProはSWE-benchコーディングベンチマークでClaude Opus 4.6とわずか0.2ポイント差の性能です（DEV Community）。

注目すべきはコストです。V4-Proは100万トークンあたり$3.48、Claude Opus 4.6は$75——約21倍の価格差がありながら、コーディングタスクではほぼ同等の性能を発揮します（Medium）。エージェント開発の現場では、すでに「トラフィックの70%をDeepSeek V4-Flash、25%をClaude Sonnet 4.6、5%をOpus 4.7」という分割運用が報告されています（BuildFastWithAI）。

実務上の示唆：コストは「モデル選定」ではなく「ルーティング設計」で決まる

単一のプレミアムモデルをすべてのリクエストに使う時代は終わりつつあります。タスクの難易度・リスク・レイテンシ要件に応じてモデルをルーティングする設計が、コストと品質のトレードオフを最適化します。
オープンウェイトモデルの採用では「誰がホストするか」「SLOをどう担保するか」が新たな設計項目になります。MITライセンスはコードの自由度を与えますが、インフラコスト・セキュリティ・バージョン管理は自社で抱える必要があります。
コーディング以外のタスク（長文分析、推論、多言語対応）では性能差が広がる場合があります。ベンチマークスコアではなく、自社のタスク分布での評価が、ルーティング戦略の基盤になります。

CloudflareがAgents Weekでエージェント専用インフラを整備

Cloudflareは「Agents Week 2026」でエージェント運用を前提としたインフラ群を一斉公開しました（Cloudflare Blog）。中核は独自の推論エンジンInfireで、Rustで実装されており、複数GPUをまたいでLLMを効率的に実行します（Cloudflare Blog）。

InfireはプリフィルとデコードをGPUで分離する「分離プリフィル（disaggregated prefill）」を採用し、各ステージを独立してスケールできる設計です（InfoQ）。この最適化により、Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動作させながら、KVキャッシュのためのメモリを確保できています（InfoQ）。330都市のデータセンター網を活かし、ユーザーと推論エンドポイントの双方に近い位置でAI Gatewayを機能させる設計です（Cloudflare Blog）。

実務上の示唆：エッジ推論は「レイテンシ」より「状態管理」が先の課題

エージェントのユースケースでは、推論の低レイテンシと同等かそれ以上に、ツール呼び出し結果や会話状態の管理が設計の要になります。インフラを選ぶ際は、「速い」だけでなく「状態をどこに、どう持つか」の仕様を確認するべきです。
分離プリフィル設計はスループット効率を高める一方、バースト時の挙動やコールドスタートのレイテンシに特性が出やすい構造です。SLO設計では、平均レイテンシだけでなくP99・コールドスタート時間を要件に含めることが重要です。
CloudflareのようなグローバルCDN事業者がAI推論を取り込む流れは、「モデルは外、インフラは既存CDNで」という調達モデルを現実的にします。将来の乗り換えコストと、ベンダーロックインのリスクを今の時点で整理しておく価値があります。

AIが数学の“共同研究者”に：AI Co-Mathematician

arXivに投稿された「AI Co-Mathematician」（arXiv:2605.06651）は、フロンティアモデルを補完する位置付けで、ステートフルなアーキテクチャを持つエージェント型AIを数学研究に応用した取り組みです。AlphaProofやAletheiaのような自律推論器を動的に呼び出し、長時間かかる証明探索や仮説生成を支援します。

単一の問題を解く「ツール」ではなく、研究者とともに仮説→検証→修正のサイクルを回す「共同研究者」として設計されている点が、従来の数学AIとの違いです。

実務上の示唆：専門領域エージェントは「正確さ」より「検証可能性」が鍵

数学のような検証が明確な領域でエージェントが力を発揮できるのは、出力の正否を人間が（あるいはシステムが）確認できるからです。あいまいな領域にエージェントを展開する際は、何をもって成功とするかを先に定義することが、エラーの見逃しを防ぎます。
長時間タスク（証明探索、文献調査、シミュレーション）をエージェントに委ねるには、途中状態の保存・再開と、部分的な失敗からの回復設計が不可欠です。「最後まで動いたか」だけを評価する設計では、長時間タスクの品質管理ができません。

まとめ：地盤の整備が、次のエージェント競争を決める

DeepSeek V4のコスト破壊（DeepSeek）、CloudflareのエッジAIインフラ成熟（Cloudflare）、専門領域への浸透（arXiv:2605.06651）——これらは、エージェントの「走る地盤」が急速に整備されていることを示しています。モデルの賢さが前提になりつつある今、インフラコスト・ルーティング設計・状態管理・検証可能性の整備が、プロダクトの持続的な競争力を決める局面に入っています。