【AIニュース】非トランスフォーマーLLMの台頭と中国勢の推論コスト競争

AI業界において、2026年5月は大きな転換点として記憶されるかもしれない。長年支配的だったトランスフォーマーというアーキテクチャへの具体的な挑戦が製品として現れ、中国の主要AI各社が猛スピードでオープンウェイトモデルをリリースし、消費電力を根本から変えうるアプローチが論文だけでなく実用システムとして発表された。個々の出来事ではなく、これらが一斉に起きていることに注目したい。

SubQ：「二乗の壁」を突き破った非トランスフォーマーLLM

AIの基盤技術として長く君臨してきたトランスフォーマーアーキテクチャには、根本的な制約がある。注意機構（アテンション、モデルがテキスト内のどの部分に注目するかを決める仕組み）の計算コストが、扱うテキストの長さに対して「二乗のオーダー」で増える点だ。文章の長さが2倍になれば計算量は4倍、10倍になれば100倍になる。これがAIモデルが非常に長いテキストを処理しにくい主な理由のひとつである。

2026年5月5日、マイアミを拠点とするスタートアップ「Subquadratic社」が、その壁を破ったと主張するモデル SubQ を発表した。調達額は約44億円（2900万ドル）のシードラウンドだ。

SubQの核心は「サブクワドラティック・スパース・アテンション（SSA）」と呼ばれる独自の仕組みにある。すべてのトークン（単語を細かく分割した断片）の組み合わせを計算するのではなく、重要な関係だけに絞って計算する。これにより計算コストがほぼ線形（O(n)、文章が2倍になっても計算量は約2倍程度）に抑えられるという。

eWeek の報告によると、コンテキストウィンドウ（一度に扱えるテキストの長さ）は1200万トークンに達する。これは小説数百冊分に相当する量だ。FlashAttention（トランスフォーマーの高速化手法）と比べると、100万トークン時点で約52倍高速だという。価格もClaude OpusやGPT-5.5の約5分の1とされている。

実務への示唆は大きい。長大なコードベースの一括解析、法律文書の全文読み込み、数年分のメールスレッドを一度に処理するといった「長文脈タスク」が劇的に安くなる可能性がある。

実務上の示唆

コスト面から長文脈AIの活用を見送っていた場面でも、SubQは現実的な選択肢になりうる
現時点ではベンダー（開発元）以外の第三者による独立した性能検証が存在しない。採用判断は独立した評価が出てから行うべきだ
「トランスフォーマーがすべて」ではなくなる可能性を示しており、AIアーキテクチャの多様化が本格化するかもしれない
長文脈が必要なユースケースを抱える組織は、今のうちに要件を整理しておくと選択肢の評価がしやすくなる

中国4社が12日間で4つのオープンウェイトコーディングモデルを投入

2026年4月7日から4月24日の間、わずか12日間で中国の主要AI企業4社が立て続けにオープンウェイト（モデルの重みが公開されており、手元のサーバーで動かせる）コーディングモデルをリリースした。各社の比較記事によると詳細は次のとおりだ。

Z.ai の GLM-5.1：総パラメータ数7440億・一度の処理で使うアクティブパラメータ約400億、コンテキスト200K（20万トークン）
Moonshot の Kimi K2.6：総パラメータ数1兆・アクティブ約320億、コンテキスト256K
MiniMax の M2.7：MoE（複数の小さなモデルを組み合わせて動かすアーキテクチャ）採用、最大100万トークンのコンテキスト
DeepSeek の V4：V4-Pro（総数1.6兆パラメータ）とV4-Flash（2840億）の2バリアント

コーディングのエージェント評価指標「SWE-Bench Pro（ソフトウェアエンジニアリングの自動化タスクを評価するベンチマーク）」では、Kimi K2.6が58.6%でトップ、僅差でGLM-5.1が58.4%、DeepSeek V4-Proが55.4%と続く。いずれもClaude OpusやGPT-5.5の推論コストの3分の1以下で提供されている。

この動きの意味は単なる性能競争ではない。オープンウェイトという形式でモデルが公開されると、企業は自社サーバーで動かすことができ、APIの利用料を払い続ける必要がなくなる。特に大量のコード生成・レビューを行う組織にとって、コスト構造が根本から変わる可能性がある。各モデルの特徴を整理すると、ベンチマーク総合ではGLM-5.1、コーディングエコシステムではKimi K2.6、長大な文書処理ではMiniMax M2.7、コストパフォーマンスではDeepSeek V4がそれぞれ強みを持つ。

実務上の示唆

自社インフラへのオープンウェイトモデルの展開が、API費用削減の現実的な手段になりつつある
コーディング支援用途であれば、西側最前線モデルと比肩する性能をずっと低コストで得られる可能性がある
12日間で4モデルというリリースペースは今後も続くと考えておくべきだ。ベンダーロックインを避けた柔軟なシステム設計が重要になる

ニューロシンボリックAIが消費電力を100分の1に削減

AIの大きな課題のひとつが電力消費だ。大規模LLMの訓練・推論は膨大なエネルギーを使い、データセンターの電力不足が社会問題になりつつある。この問題へのアプローチが、2026年4月にタフツ大学工学部から発表された。

Matthias Scheutz教授率いる研究チームが開発したのは、「ニューロシンボリックAI」と呼ばれるシステムだ。ニューラルネットワーク（大量のデータからパターンを学習する仕組み）と、シンボリック推論（論理ルールと記号を使ってステップごとに考える仕組み）を組み合わせる。人間が「直感」と「論理的思考」を使い分けるように、AIも状況に応じて両方の能力を切り替える発想だ。

ScienceDaily の報告によれば、このシステムはロボット計画タスクにおいて、標準的なVLAモデル（視覚・言語・行動を統合したロボット向けAI）の100分の1の電力で動作し、精度95%を達成した。一方、従来の標準的なVLAモデルの精度は34%にとどまった。消費電力を1%にしながら精度は約3倍という結果だ。

この研究は2026年5月にウィーンで開催される「国際ロボティクス・オートメーション会議（ICRA）」で発表された。エッジ推論（ユーザーや機器の近くにある小型コンピューターでAIを動かすこと）や、バッテリー駆動のロボット・ドローンへの応用可能性が高い。「AIは電力を大量に消費するもの」という前提が、少なくとも特定のタスクでは覆されつつある。

実務上の示唆

ロボット・IoT・自律移動体への軽量AI組み込みを検討する場合、ニューロシンボリックアプローチは検討に値する
「エネルギー効率」を重視するAI要件では、純粋なLLMに頼らない選択肢が現実的になりつつある
現状は特定タスク向けの研究段階であり、汎用LLMとの直接比較はできない。補完的な用途からPoC（試作・実証実験）を始めるのが現実的だ

まとめ

2026年5月のAI動向を一言で表すなら「多様化と低コスト化の加速」だ。SubQはトランスフォーマーを前提としない新アーキテクチャの可能性を示し、中国の4モデルは推論コストの基準を一段と引き下げた。ニューロシンボリックAIは「大きく、電力を食う」というAIのイメージそのものを問い直している。次の半年で、これらのアプローチがどれだけ実用化されるかに注目したい。

hagizo.io