【AIニュース】非トランスフォーマーの胎動と主権AI連合の形成

2026年5月、AI業界では「今までの常識が変わるかもしれない」という出来事がいくつも重なっている。これまでAIの主流だった「トランスフォーマー」という仕組みに代わる新モデルが商業デビューし、欧州では米国のAI大手に対抗する連合が生まれた。AIをより速く・安く動かす技術も進歩しており、企業の現場ではAIエージェントが実験から本番稼働へと移り始めている。

SubQ登場――「重い計算」を劇的に減らす新しいAI

マイアミのスタートアップSubquadratic社は2026年5月5日、新しいAIモデル「SubQ」を発表した。CEO Justin Dangel氏とCTO Alexander Whedon氏（元Meta GenAIヘッド）が率いる同社は、約29億円（2,900万ドル）の資金調達に成功し、会社の評価額は500億円規模とされる。

SubQの最大の特徴は「Subquadratic Sparse Attention（SSA）」と呼ぶ独自の仕組みだ。従来のトランスフォーマーは、扱う文章が長くなるほど計算量が急激に増える（2倍の長さで4倍の計算が必要になる）という欠点があった。SubQはこの増え方をほぼ「長さに比例する」レベルに抑えることができると主張している。

その結果、最大1,200万トークン（小説数百冊分に相当）という巨大なコンテキストを扱いながら、コストは同クラスのモデルの約5分の1になるという。注意計算の速度は最大52倍に達したとも主張しているが、これらの数値はあくまで自社発表のものだ。VentureBeatも報じているように、第三者による独立した検証はまだ行われていない。

過去にもMamba、RWKV、DeepSeek Sparse Attentionなど「計算を減らす」試みは多くあったが、実際のベンチマークで最前線の性能には届かないことが多かった。SubQが商業資金を背景にそこへ挑んでいる点は注目に値するが、まずは独立した性能評価を待ちたい。

実務上の示唆

長い文書やコードを丸ごと読ませるような使い方は、独立ベンチマークが出た後に比較検討する価値がある
モデルを選ぶ際は性能だけでなく、コスト構造（文章が長くなるほど割高になるか？）も確認する習慣をつけよう
「画期的な新技術」を名乗る製品は、第三者の検証が出てから本番に採用するのが安全だ

CohereとAleph Alphaが合併――「データを自国で管理したい」欧州の反撃

2026年4月下旬、カナダのCohere（評価額約1兆円）とドイツのAleph Alphaが合併を発表した。新会社の評価額は約3兆円規模で、ドイツの大手小売グループSchwarz Groupが約800億円（5億ユーロ）を出資して後押しする。

TechCrunchの記事によれば、この合併の狙いは単純な技術の足し算ではない。「AIに使うデータを国外に出したくない」という欧州政府・銀行・病院などへの訴求が核心だ。Aleph Alphaは欧州の防衛・公共分野に強く、Cohereは多言語対応と企業向けAPIの運用実績がある。組み合わせることで、GDPRなどの厳しいデータ規制に対応した「自国完結型」のAIサービスを提供できる稀有な存在になりうる。

これは「主権AI」と呼ばれる考え方――自分の国や組織でデータとAIを管理したい、という志向の広がりを示している。同時期にOpenAIはGPT-5.5をAPIで公開し、Grok 4.3（xAI）やGemini 3.1 Flash Lite（Google）もリリースされ、最前線モデルの競争は続いている。しかし欧州での動きは、その"外側"で起きている地域ごとの構造変化を示すものだ。

実務上の示唆

欧州でのAI活用を検討している日本企業は、この主権AI連合を選択肢の一つとして把握しておくとよい
米国のAIサービスだけに頼るリスクを減らしたい場合、欧州系の選択肢が実質的に広がった
日本でも「自国でデータを管理できるAI調達」の議論が進む可能性があり、早めに方針を考える価値がある

CloudflareがAI推論を改善――「遠くのサーバー」に頼らなくなる時代へ

Cloudflareは2026年5月、公式ブログでAI推論インフラの技術詳細を公開した。同社のWorkers AIは世界300以上の拠点でモデルを動かすサービスで、「ユーザーの近くで処理する」ことでレスポンスを速くする設計になっている。最近はオープンソースモデルKimi K2.5をプラットフォームに組み込み、速度を3倍に改善したという。

注目の技術は「Disaggregated Prefill（分離型プリフィル）」だ。AIが回答を生成する処理は大きく二段階に分かれる。最初の「入力を読み込んで整理する段階」（プリフィル）は計算量が多く、次の「実際に文字を出力する段階」（デコード）はメモリ使用量が多い。この二つは必要なリソースが異なるのに、従来は同じハードウェアで処理していたため効率が悪かった。Cloudflareはこれを別々の最適化されたシステムに分けることで、GPU（AI処理チップ）の使い方を大幅に改善した。

これが意味するのは「AIを使うのにビッグテックの巨大データセンターに頼らなくて済む」未来が近づいているということだ。医療や金融のように「データを外に出せない」業界でも、近くの拠点でAIを動かしやすくなる。

実務上の示唆

「応答が速いAIが必要」なアプリ（音声対話やリアルタイム翻訳など）は、エッジ推論（近くの拠点での処理）の採用を検討する価値が出てきた
大手クラウドだけでなく、エッジ型のAIインフラも選択肢に入れておくとアーキテクチャの幅が広がる
こうした効率化技術が広まれば、AI利用のコスト削減につながる可能性がある

AIエージェントが「実験」から「実際の仕事」へ

2026年5月、企業でのAIエージェント活用がPoC（試作・実証実験）の段階を超えて、本番の業務システムに組み込まれる事例が増えてきた。

ServiceNowとAccentureは共同プログラムを発表し、企業の既存システムにエージェントAIのワークフローを直接組み込む取り組みを開始した。金融インフラ企業Broadridgeも、後処理業務やクライアント対応で発生する「例外ケース」の処理をエージェントが自動でこなす機能を正式リリースしている。

Google CloudのAIエージェントレポートは「2026年末までに企業アプリの40%に専門エージェントが搭載される」と予測している。一方で同レポートは「既存の業務フローにそのままエージェントを重ねても、多くは失敗している」という厳しい現実も伝えている。うまくいくには業務フロー自体を見直すことが必要だという認識が、業界全体で共有されつつある。

技術トレンドとして「コンテキストエンジニアリング」という考え方が注目されている。AIへの指示文（プロンプト）をうまく書くことより一歩進んで、「エージェントにどのデータをどのタイミングで渡すか」という情報設計の全体を考える手法だ。エージェントの信頼性は、指示の巧みさよりも情報設計の質で決まるという見方が広まっている。

実務上の示唆

エージェントを本番に移すときは、業務の流れ自体を見直さないと効果が半減する
「どの情報をいつエージェントに渡すか」の設計（コンテキストエンジニアリング）を、導入計画の早い段階で考えることが重要だ
ServiceNow/Accentureのように既存の業務システムに直接組み込むパターンが増えれば、SaaSツールとの連携設計が競争力の差になってくる

まとめ

2026年5月のAI業界は、技術・地政学・インフラ・現場活用という四つの面で同時に大きな変化が起きている。SubQはトランスフォーマー一強の時代に初めて商業規模の挑戦状を叩きつけ、Cohere＋Aleph Alphaの合体は「データを自分たちで管理したい」という世界的な流れを形にした。Cloudflareの推論技術改善はAIをより身近な場所で動かせる環境を整え、企業の現場ではエージェントが「試してみる段階」から「毎日使うインフラ」へと変わりつつある。それぞれの変化はつながり合っており、AIとどう向き合うかを考えるうえで欠かせない視点を提供している。

hagizo.io