【AIニュース】Cloudflare推論技術の深化とAlibaba自社チップ×LLMの35時間自律エージェント

AIの進化は「どのモデルが賢いか」から「どこでどう動かすか」という問いへと移行しつつある。今週はその両極で注目の動きがあった。Cloudflareは自社のLLM推論スタック全体を公開し、エッジ（ユーザーに近いサーバーで処理する仕組み）でのLLM運用コストと速度を根本から変えうる技術を示した。一方でAlibabaは5月20日のCloud Summitで自社製 AIチップ「Zhenwu M890」と次世代モデル「Qwen3.7-Max」を発表し、1158回のツール呼び出しを含む 35時間完全自律のコーディングデモで業界を駆かせた。

Cloudflare：Rust製推論エンジン「Infire」と無損失圧縩22%圧縮でエッジLLMを加速

Cloudflareは5月、自社のLLM推論インフラの詳細をWorkers AIブログとUnweight研究論文で公開した。核心は三つの独自技術だ。

① Infire推論エンジン：Rust（メモリ安全性と高速性で知られるプログラミング言語）で書かれたCloudflare独自の推論エンジン。複数GPU対応を強化し、単一GPUのVRAM（グラフィックカードのメモリ）に収まらない大型モデルも実行できるようにした。Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動かすことを確認している。

② Unweight圧縮：LLMの重み（パラメータ）データをビット単位で再圧縮し、精度を一切落とさずに15〜22%削減する技術だ。BF16形式（機械学習でよく使われる浮動小数点形式）の数値を「符号・仮数部」と「指数部」に分離し、指数部をHuffman符号（出現頻度に応じて短いビット列を割り当てる古典的な圧縮手法）でまとめる。特別なハードウェアは不要で、既存のNVIDIA Hopper世代GPU（H100/H200）でそのまま動く。

③ Disaggregated Prefill（分離型プリフィル）：LLMが回答を生成する工程は大きく二段階に分かれる。まず入力テキスト全体を読んで内部状態（KVキャッシュ）を作る「プリフィル段階」、次に一トークンずつ出力する「デコード段階」だ。前者は計算集約型、後者はメモリ帯域幅集約型と性質が異なるため、それぞれ別の専用サーバーに分けて独立に最適化・スケールできるようにした。

CloudflareのWorkers AIは300超えのエッジロケーション（世界各地に設置されたサーバー拠点）でモデルを提供しており、これらの改善は同基盤に展開される予定だ。

実務上の示唆

Unweightの22%圧縮はGPU必要台数の削減に直結する。同じ台数で扱えるモデルサイズが上がるため、自社のクラウドコスト試算時に見込める余地が生まれた
Disaggregated Prefillは長いプロンプトを多用するユースケース（RAGや書類処理など）のレイテンシ改善に特に効く構成で、自社の推論スタックを設計する際の参考になる
エッジでのAI推論が実用的な選択肢になりつつあり、データを外部クラウドに送らずユーザー近くで処理する「エッジAI」設計の検討時期と言える
AWS・GCP・Azureなど競合が同様の最適化をどう追うかが次の注目点だ

Alibaba：Zhenwu M890チップとQwen3.7-Maxによる35時間自律コーディング

5月20〜21日に浙江省杭州で開かれたAlibaba Cloud Summitで、同社は三つの発表を一体として打ち出した。自社製 AIチップ「Zhenwu M890」、次世代モデル「Qwen3.7-Max」、そして128枚のM890を1ラックに収める「Panjiu AL128スーパーノードサーバー」だ。

Zhenwu M890の仕様：半導体子会T-Headが開発。前世代のZhenwu 810E比で性能3倍を謳い、HBM3メモリ144GB（前世代比50%増）、チップ間帯域800GB/sを備える。TrendForceの報道によれば、Panjiu AL128では64枚のM890を新設計の「ICN Switch 1.0」（25.6Tbpsの独自インターコネクト）で繋ぎ、チップ間通信レイテンシを150ナノ秒以下に抑えた。すでに560,000ユニットを業種合ょ20業種400社超に出荷済みと発表された。

Qwen3.7-Maxの特徴：コンテキストウィンドウ（一度に処理できるテキスト量）が前世代Qwen3.6-Max-Previewの25.6万トークンから100万トークン（小説数百冊分に相当）へ大幅拡大。高度なコーディングと長時間エージェントタスクに最適化されている。

そして最大の注目を集めたのが35時間デモだ。VentureBeatの報道によれば、Qwen3.7-MaxはZhenwu M890サーバー上で、自分が訓練データとして見たことのないM890のアーキテクチャに対し「アテンションカーネル（行列演算の中核部分）を最適化せよ」というタスクを与えられた。

35時間にわたって完全自律で動き続け、1158回のツール呼び出しと432回のカーネル評価を実施。コンパイルエラーを自己診断しながら5回の設計視直しを経て、最終的に10倍の高速化を達成した。AnthropicのClaude Codeなど外部エージェントハーネスとの連携にも対応する。

ベンチマーク面では、数学推論の「Apex Math Reasoning」においてQwen3.7-Maxが44.5点を記録し、Claude Opus-4.6 Maxの34.5点、DeepSeek V4-Proの38.3点を上回った。人類最難問集「Humanity’s Last Exam」の41.4点や現実的なコーディングエージェントベンチ「MCP-Atlas」の76.4点も発表された。なおこれらはすべてAlibaba自社発表の数値であり、独立機関による再現検証はまだ行われていない点に留意が必要だ。

実務上の示唆

35時間自律コーディングは「長期エージェント」の実用性を示す具体例として重要だ。未知のハードウェアに対して自己適応できる能力は、社内システム改善への応用可能性を持つ
Alibabaの垂直統合戦略（チップ→モデル→サーバー）は米中の半導体規制が続く中での「AI調達自律化」の一形態であり、日本企業の中長期調達リスク評価にも影響する
Qwen3.7-Maxの100万トークンコンテキストは実用的な長文処理基盤として今後評価される。法令集・技術仕様書・大規模コードベース全体を一括で扱うワークフローへの適合を検討する価値がある
ベンチマークは自社発表のみであり、独立評価が出るまで数値を過信しないよう注意が必要だ

まとめ

今週の二大ニュースはいずれも「モデルの知能」より「モデルを動かす基盤」に焦点が当たっていた。Cloudflareはエッジにおける推論効率を圧縮・分離・最適化の三本柱で改善し、AlibabaはチップからモデルまでのAIファクトリーを自前で完成させた。前者はコスト構造、後者は調達自律性という異なる問いへの答えだが、どちらも「AIを誰が・どこで・どのくらいのコストで動かすか」という実務上の核心に直結している。独自の推論インフラを持たない企業にとっても、これらの動向は自社のAI利用コストとベンダーロックインのリスクを再評価するきっかけになるはずだ。

hagizo.io