AIの進化は「どのモデルが賢いか」から「どこでどう動かすか」という問いへと移行しつつある。今週はその両極で注目の動きがあった。Cloudflareは自社のLLM推論スタック全体を公開し、エッジ(ユーザーに近いサーバーで処理する仕組み)でのLLM運用コストと速度を根本から変えうる技術を示した。一方でAlibabaは5月20日のCloud Summitで自社製 AIチップ「Zhenwu M890」と次世代モデル「Qwen3.7-Max」を発表し、1158回のツール呼び出しを含む 35時間完全自律のコーディングデモで業界を駆かせた。
Cloudflare:Rust製推論エンジン「Infire」と無損失圧縩22%圧縮でエッジLLMを加速
Cloudflareは5月、自社のLLM推論インフラの詳細をWorkers AIブログとUnweight研究論文で公開した。核心は三つの独自技術だ。
① Infire推論エンジン:Rust(メモリ安全性と高速性で知られるプログラミング言語)で書かれたCloudflare独自の推論エンジン。複数GPU対応を強化し、単一GPUのVRAM(グラフィックカードのメモリ)に収まらない大型モデルも実行できるようにした。Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動かすことを確認している。
② Unweight圧縮:LLMの重み(パラメータ)データをビット単位で再圧縮し、精度を一切落とさずに15〜22%削減する技術だ。BF16形式(機械学習でよく使われる浮動小数点形式)の数値を「符号・仮数部」と「指数部」に分離し、指数部をHuffman符号(出現頻度に応じて短いビット列を割り当てる古典的な圧縮手法)でまとめる。特別なハードウェアは不要で、既存のNVIDIA Hopper世代GPU(H100/H200)でそのまま動く。
③ Disaggregated Prefill(分離型プリフィル):LLMが回答を生成する工程は大きく二段階に分かれる。まず入力テキスト全体を読んで内部状態(KVキャッシュ)を作る「プリフィル段階」、次に一トークンずつ出力する「デコード段階」だ。前者は計算集約型、後者はメモリ帯域幅集約型と性質が異なるため、それぞれ別の専用サーバーに分けて独立に最適化・スケールできるようにした。
CloudflareのWorkers AIは300超えのエッジロケーション(世界各地に設置されたサーバー拠点)でモデルを提供しており、これらの改善は同基盤に展開される予定だ。
実務上の示唆
- Unweightの22%圧縮はGPU必要台数の削減に直結する。同じ台数で扱えるモデルサイズが上がるため、自社のクラウドコスト試算時に見込める余地が生まれた
- Disaggregated Prefillは長いプロンプトを多用するユースケース(RAGや書類処理など)のレイテンシ改善に特に効く構成で、自社の推論スタックを設計する際の参考になる
- エッジでのAI推論が実用的な選択肢になりつつあり、データを外部クラウドに送らずユーザー近くで処理する「エッジAI」設計の検討時期と言える
- AWS・GCP・Azureなど競合が同様の最適化をどう追うかが次の注目点だ
Alibaba:Zhenwu M890チップとQwen3.7-Maxによる35時間自律コーディング
5月20〜21日に浙江省杭州で開かれたAlibaba Cloud Summitで、同社は三つの発表を一体として打ち出した。自社製 AIチップ「Zhenwu M890」、次世代モデル「Qwen3.7-Max」、そして128枚のM890を1ラックに収める「Panjiu AL128スーパーノードサーバー」だ。
Zhenwu M890の仕様:半導体子会T-Headが開発。前世代のZhenwu 810E比で性能3倍を謳い、HBM3メモリ144GB(前世代比50%増)、チップ間帯域800GB/sを備える。TrendForceの報道によれば、Panjiu AL128では64枚のM890を新設計の「ICN Switch 1.0」(25.6Tbpsの独自インターコネクト)で繋ぎ、チップ間通信レイテンシを150ナノ秒以下に抑えた。すでに560,000ユニットを業種合ょ20業種400社超に出荷済みと発表された。
Qwen3.7-Maxの特徴:コンテキストウィンドウ(一度に処理できるテキスト量)が前世代Qwen3.6-Max-Previewの25.6万トークンから100万トークン(小説数百冊分に相当)へ大幅拡大。高度なコーディングと長時間エージェントタスクに最適化されている。
そして最大の注目を集めたのが35時間デモだ。VentureBeatの報道によれば、Qwen3.7-MaxはZhenwu M890サーバー上で、自分が訓練データとして見たことのないM890のアーキテクチャに対し「アテンションカーネル(行列演算の中核部分)を最適化せよ」というタスクを与えられた。
35時間にわたって完全自律で動き続け、1158回のツール呼び出しと432回のカーネル評価を実施。コンパイルエラーを自己診断しながら5回の設計視直しを経て、最終的に10倍の高速化を達成した。AnthropicのClaude Codeなど外部エージェントハーネスとの連携にも対応する。
ベンチマーク面では、数学推論の「Apex Math Reasoning」においてQwen3.7-Maxが44.5点を記録し、Claude Opus-4.6 Maxの34.5点、DeepSeek V4-Proの38.3点を上回った。人類最難問集「Humanity’s Last Exam」の41.4点や現実的なコーディングエージェントベンチ「MCP-Atlas」の76.4点も発表された。なおこれらはすべてAlibaba自社発表の数値であり、独立機関による再現検証はまだ行われていない点に留意が必要だ。
実務上の示唆
- 35時間自律コーディングは「長期エージェント」の実用性を示す具体例として重要だ。未知のハードウェアに対して自己適応できる能力は、社内システム改善への応用可能性を持つ
- Alibabaの垂直統合戦略(チップ→モデル→サーバー)は米中の半導体規制が続く中での「AI調達自律化」の一形態であり、日本企業の中長期調達リスク評価にも影響する
- Qwen3.7-Maxの100万トークンコンテキストは実用的な長文処理基盤として今後評価される。法令集・技術仕様書・大規模コードベース全体を一括で扱うワークフローへの適合を検討する価値がある
- ベンチマークは自社発表のみであり、独立評価が出るまで数値を過信しないよう注意が必要だ
まとめ
今週の二大ニュースはいずれも「モデルの知能」より「モデルを動かす基盤」に焦点が当たっていた。Cloudflareはエッジにおける推論効率を圧縮・分離・最適化の三本柱で改善し、AlibabaはチップからモデルまでのAIファクトリーを自前で完成させた。前者はコスト構造、後者は調達自律性という異なる問いへの答えだが、どちらも「AIを誰が・どこで・どのくらいのコストで動かすか」という実務上の核心に直結している。独自の推論インフラを持たない企業にとっても、これらの動向は自社のAI利用コストとベンダーロックインのリスクを再評価するきっかけになるはずだ。