<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Alibaba on hagizo.io</title><link>https://ha.gizwoo.com/tags/alibaba/</link><description>Recent content in Alibaba on hagizo.io</description><generator>Hugo -- gohugo.io</generator><language>en</language><lastBuildDate>Fri, 22 May 2026 11:42:12 +0900</lastBuildDate><atom:link href="https://ha.gizwoo.com/tags/alibaba/index.xml" rel="self" type="application/rss+xml"/><item><title>【AIニュース】Cloudflare推論技術の深化とAlibaba自社チップ×LLMの35時間自律エージェント</title><link>https://ha.gizwoo.com/cloudflare-alibaba-inference-chip-rpkntwbzmj/</link><pubDate>Fri, 22 May 2026 00:00:00 +0900</pubDate><guid>https://ha.gizwoo.com/cloudflare-alibaba-inference-chip-rpkntwbzmj/</guid><description>&lt;p&gt;AIの進化は「どのモデルが賢いか」から「どこでどう動かすか」という問いへと移行しつつある。今週はその両極で注目の動きがあった。Cloudflareは自社のLLM推論スタック全体を公開し、エッジ（ユーザーに近いサーバーで処理する仕組み）でのLLM運用コストと速度を根本から変えうる技術を示した。一方でAlibabaは5月20日のCloud Summitで自社製 AIチップ「Zhenwu M890」と次世代モデル「Qwen3.7-Max」を発表し、1158回のツール呼び出しを含む 35時間完全自律のコーディングデモで業界を駆かせた。&lt;/p&gt;
&lt;h2 id="cloudflarerust製推論エンジンinfireと無損失圧縩22圧縮でエッジllmを加速"&gt;Cloudflare：Rust製推論エンジン「Infire」と無損失圧縩22%圧縮でエッジLLMを加速
&lt;/h2&gt;&lt;p&gt;Cloudflareは5月、自社のLLM推論インフラの詳細を&lt;a class="link" href="https://blog.cloudflare.com/high-performance-llms/" target="_blank" rel="noopener"
 &gt;Workers AIブログ&lt;/a&gt;と&lt;a class="link" href="https://blog.cloudflare.com/unweight-tensor-compression/" target="_blank" rel="noopener"
 &gt;Unweight研究論文&lt;/a&gt;で公開した。核心は三つの独自技術だ。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;① Infire推論エンジン&lt;/strong&gt;：Rust（メモリ安全性と高速性で知られるプログラミング言語）で書かれたCloudflare独自の推論エンジン。複数GPU対応を強化し、単一GPUのVRAM（グラフィックカードのメモリ）に収まらない大型モデルも実行できるようにした。Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動かすことを確認している。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;② Unweight圧縮&lt;/strong&gt;：LLMの重み（パラメータ）データをビット単位で再圧縮し、精度を一切落とさずに15〜22%削減する技術だ。BF16形式（機械学習でよく使われる浮動小数点形式）の数値を「符号・仮数部」と「指数部」に分離し、指数部をHuffman符号（出現頻度に応じて短いビット列を割り当てる古典的な圧縮手法）でまとめる。特別なハードウェアは不要で、既存のNVIDIA Hopper世代GPU（H100/H200）でそのまま動く。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;③ Disaggregated Prefill（分離型プリフィル）&lt;/strong&gt;：LLMが回答を生成する工程は大きく二段階に分かれる。まず入力テキスト全体を読んで内部状態（KVキャッシュ）を作る「プリフィル段階」、次に一トークンずつ出力する「デコード段階」だ。前者は計算集約型、後者はメモリ帯域幅集約型と性質が異なるため、それぞれ別の専用サーバーに分けて独立に最適化・スケールできるようにした。&lt;/p&gt;
&lt;p&gt;CloudflareのWorkers AIは300超えのエッジロケーション（世界各地に設置されたサーバー拠点）でモデルを提供しており、これらの改善は同基盤に展開される予定だ。&lt;/p&gt;
&lt;h3 id="実務上の示唆"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;Unweightの22%圧縮はGPU必要台数の削減に直結する。同じ台数で扱えるモデルサイズが上がるため、自社のクラウドコスト試算時に見込める余地が生まれた&lt;/li&gt;
&lt;li&gt;Disaggregated Prefillは長いプロンプトを多用するユースケース（RAGや書類処理など）のレイテンシ改善に特に効く構成で、自社の推論スタックを設計する際の参考になる&lt;/li&gt;
&lt;li&gt;エッジでのAI推論が実用的な選択肢になりつつあり、データを外部クラウドに送らずユーザー近くで処理する「エッジAI」設計の検討時期と言える&lt;/li&gt;
&lt;li&gt;AWS・GCP・Azureなど競合が同様の最適化をどう追うかが次の注目点だ&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="alibabazhenwu-m890チップとqwen37-maxによる35時間自律コーディング"&gt;Alibaba：Zhenwu M890チップとQwen3.7-Maxによる35時間自律コーディング
&lt;/h2&gt;&lt;p&gt;5月20〜21日に浙江省杭州で開かれたAlibaba Cloud Summitで、同社は三つの発表を一体として打ち出した。自社製 AIチップ「Zhenwu M890」、次世代モデル「Qwen3.7-Max」、そして128枚のM890を1ラックに収める「Panjiu AL128スーパーノードサーバー」だ。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Zhenwu M890の仕様&lt;/strong&gt;：半導体子会T-Headが開発。前世代のZhenwu 810E比で性能3倍を謳い、HBM3メモリ144GB（前世代比50%増）、チップ間帯域800GB/sを備える。&lt;a class="link" href="https://www.trendforce.com/news/2026/05/21/news-alibaba-t-head-unveils-zhenwu-m890-with-3x-performance-vs-prior-gen-new-ai-chips-planned-for-3q273q28/" target="_blank" rel="noopener"
 &gt;TrendForceの報道&lt;/a&gt;によれば、Panjiu AL128では64枚のM890を新設計の「ICN Switch 1.0」（25.6Tbpsの独自インターコネクト）で繋ぎ、チップ間通信レイテンシを150ナノ秒以下に抑えた。すでに560,000ユニットを業種合ょ20業種400社超に出荷済みと発表された。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Qwen3.7-Maxの特徴&lt;/strong&gt;：コンテキストウィンドウ（一度に処理できるテキスト量）が前世代Qwen3.6-Max-Previewの25.6万トークンから100万トークン（小説数百冊分に相当）へ大幅拡大。高度なコーディングと長時間エージェントタスクに最適化されている。&lt;/p&gt;
&lt;p&gt;そして最大の注目を集めたのが35時間デモだ。&lt;a class="link" href="https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code" target="_blank" rel="noopener"
 &gt;VentureBeatの報道&lt;/a&gt;によれば、Qwen3.7-MaxはZhenwu M890サーバー上で、自分が訓練データとして見たことのないM890のアーキテクチャに対し「アテンションカーネル（行列演算の中核部分）を最適化せよ」というタスクを与えられた。&lt;/p&gt;
&lt;p&gt;35時間にわたって完全自律で動き続け、1158回のツール呼び出しと432回のカーネル評価を実施。コンパイルエラーを自己診断しながら5回の設計視直しを経て、最終的に10倍の高速化を達成した。AnthropicのClaude Codeなど外部エージェントハーネスとの連携にも対応する。&lt;/p&gt;
&lt;p&gt;ベンチマーク面では、数学推論の「Apex Math Reasoning」においてQwen3.7-Maxが44.5点を記録し、Claude Opus-4.6 Maxの34.5点、DeepSeek V4-Proの38.3点を上回った。人類最難問集「Humanity&amp;rsquo;s Last Exam」の41.4点や現実的なコーディングエージェントベンチ「MCP-Atlas」の76.4点も発表された。なおこれらはすべてAlibaba自社発表の数値であり、独立機関による再現検証はまだ行われていない点に留意が必要だ。&lt;/p&gt;
&lt;h3 id="実務上の示唆-1"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;35時間自律コーディングは「長期エージェント」の実用性を示す具体例として重要だ。未知のハードウェアに対して自己適応できる能力は、社内システム改善への応用可能性を持つ&lt;/li&gt;
&lt;li&gt;Alibabaの垂直統合戦略（チップ→モデル→サーバー）は米中の半導体規制が続く中での「AI調達自律化」の一形態であり、日本企業の中長期調達リスク評価にも影響する&lt;/li&gt;
&lt;li&gt;Qwen3.7-Maxの100万トークンコンテキストは実用的な長文処理基盤として今後評価される。法令集・技術仕様書・大規模コードベース全体を一括で扱うワークフローへの適合を検討する価値がある&lt;/li&gt;
&lt;li&gt;ベンチマークは自社発表のみであり、独立評価が出るまで数値を過信しないよう注意が必要だ&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="まとめ"&gt;まとめ
&lt;/h2&gt;&lt;p&gt;今週の二大ニュースはいずれも「モデルの知能」より「モデルを動かす基盤」に焦点が当たっていた。Cloudflareはエッジにおける推論効率を圧縮・分離・最適化の三本柱で改善し、AlibabaはチップからモデルまでのAIファクトリーを自前で完成させた。前者はコスト構造、後者は調達自律性という異なる問いへの答えだが、どちらも「AIを誰が・どこで・どのくらいのコストで動かすか」という実務上の核心に直結している。独自の推論インフラを持たない企業にとっても、これらの動向は自社のAI利用コストとベンダーロックインのリスクを再評価するきっかけになるはずだ。&lt;/p&gt;</description></item></channel></rss>