オープンソース on hagizo.io

【AIニュース】AIが80年来の数学難問を自力証明、760Mパラメータで最先端を超える小型モデルも登場

Mon, 25 May 2026 01:00:00 +0900

AI研究の最前線で「賢さ」と「効率」の両極端を示す二つの出来事が重なった。一方でOpenAIの汎用推論モデルが80年間未解決だった数学の難問を自力で解き、AI史上初の本格的な自律数学発見を達成した。もう一方では、実行時に使うパラメータがわずか760Mというコンパクトなモデルが数学オリンピック予選で最先端クラスのスコアを叩き出し、「小さくても賢い」時代の到来を告げた。

OpenAIのAIが80年来の数学難問を自力証明

5月20日、OpenAIは公式ブログで重大な発表をした。社内の汎用推論モデルが、数学者のポール・エルデシュが1946年に提唱した離散幾何学の予想を自律的に否定する証明を発見したというものだ。

問題の中身をひとことで言うと

「平面上にn個の点を置くとき、ちょうど1単位の距離になる点ペアは最大で何組作れるか」という問いだ。エルデシュは正方グリッド（縦横等間隔の格子状配置）がほぼ最善だと予想していた。80年間、数学者たちもその前提を疑わなかった。

AIが発見したこと

OpenAIのモデルは代数的整数論の一分野「ゴロド＝シャファレヴィッチ理論（無限の代数的拡大体を構成する技法）」を独自に応用し、正方グリッドを多項式的に上回る無限個の点配置の族を発見した。出力は125ページの証明書類で、外部の数学者（プリンストン大学のWill Sawin氏）が検証・改良を加え、改善量を示す定数δ＝0.014として確定させた。

なぜこれが特別なのか

過去にもAIが数学の問題を解いた例はあったが、今回の意義は二点ある。一つ目は「数学専用に訓練されたモデルではなく汎用モデル」が達成した点。二つ目は「著名なサブ分野の中心的な未解決問題」が対象だった点だ。計算機を使った証明補助ツールとは次元が異なり、AIが新しい数学的アイデアを自分で生み出したと言える。

実務上の示唆

「AIは資料をまとめるだけ」という認識はもはや実態を反映していない。仮説生成や定理探索への応用が現実的な選択肢になりつつある
一方で今回も外部数学者による検証が不可欠だったように、AIの出力を批判的に確認するプロセスは引き続き必要だ
製薬・材料科学・経済モデルなど「仮説の数が膨大な分野」への応用研究が今後加速するとみられる

ZAYA1-8B：760Mの実行パラメータで数学オリンピックを攻略

5月6〜7日、スタートアップのZyphra社がZAYA1-8BをApache 2.0ライセンスで公開した。名前に「8B」とあるが、実際に推論時に動かすパラメータは760M（約7億6000万）だけだ。この数字の意味を実感するために比べると、GPT-3は1750億パラメータを常時フル稼働させていた。

MoEという「専門家チーム」の仕組み

MoE（Mixture of Experts：入力ごとに一部の専門サブモデルだけを呼び出す構造）は、全パラメータを毎回使わずに済む設計だ。本の索引と似ていて、質問の内容に応じて「その分野が得意な専門家」だけが計算を担当する。ZAYA1-8Bは8.4Bのパラメータを持ちながら、1回の推論では760M分しか動かさない。

ベンチマーク結果

VentureBeatの記事によると、数学オリンピック予選に相当するAIME'25で**91.9%**を記録した。GPT-4o・Claude 4.5 Sonnet・Gemini 2.5 Proといった大型フロンティアモデルの上限とされる約90%を上回る。コーディング評価LiveCodeBenchも65.8%と実用域だ。

AMD製GPUで訓練したことの意味

学習にはAMD Instinct MI300XとAMD Pensando Pollaraネットワークを使ったIBM Cloudクラスターを利用した。NVIDIAのH100/H200が事実上の標準だったAI訓練インフラにおいて、AMD環境でここまでの性能を実現したことは、GPU市場の多様化を示す事例として業界に注目されている。

KVキャッシュ圧縮という技術上のポイント

ZAYA1-8BはCCA（Compressed Convolutional Attention：圧縮畳み込みアテンション）という独自の仕組みを使い、KVキャッシュ（モデルが文脈を保持するための一時メモリ）を通常比8分の1に圧縮する。長い文章を処理するほどメモリ消費が増える問題（計算量が文章の長さの2乗に比例して増える「2乗問題」）を緩和し、限られたメモリでも長い会話を扱いやすくしている。

実務上の示唆

Apache 2.0ライセンスのため商用利用・改変が自由。社内システムへの組み込みや派生モデルの開発に使いやすい
実行パラメータが小さい分、APIコストや自前サーバーの消費電力を大幅に抑えられる。数学・コーディング特化の用途では大型モデルを使わない選択肢として検討の価値がある
AMDエコシステムでの訓練実績は、NVIDIA依存から脱却したいインフラ担当者にとって有力な事例になる

まとめ

今週のAIニュースは「どこまで賢くなれるか」と「どこまで小さくできるか」という二つの問いへの答えが同時に更新された週だった。OpenAIのモデルは80年分の数学的直感を覆す発見をし、ZAYA1-8Bは760Mという小さな体で大型モデルの背中を追い越した。どちらの進展も、AIを「使う側」として見ると、選択肢と可能性の広がりを意味している。

【AIニュース】非トランスフォーマーLLMの台頭と中国勢の推論コスト競争

Wed, 20 May 2026 10:00:00 +0900

AI業界において、2026年5月は大きな転換点として記憶されるかもしれない。長年支配的だったトランスフォーマーというアーキテクチャへの具体的な挑戦が製品として現れ、中国の主要AI各社が猛スピードでオープンウェイトモデルをリリースし、消費電力を根本から変えうるアプローチが論文だけでなく実用システムとして発表された。個々の出来事ではなく、これらが一斉に起きていることに注目したい。

SubQ：「二乗の壁」を突き破った非トランスフォーマーLLM

AIの基盤技術として長く君臨してきたトランスフォーマーアーキテクチャには、根本的な制約がある。注意機構（アテンション、モデルがテキスト内のどの部分に注目するかを決める仕組み）の計算コストが、扱うテキストの長さに対して「二乗のオーダー」で増える点だ。文章の長さが2倍になれば計算量は4倍、10倍になれば100倍になる。これがAIモデルが非常に長いテキストを処理しにくい主な理由のひとつである。

2026年5月5日、マイアミを拠点とするスタートアップ「Subquadratic社」が、その壁を破ったと主張するモデル SubQ を発表した。調達額は約44億円（2900万ドル）のシードラウンドだ。

SubQの核心は「サブクワドラティック・スパース・アテンション（SSA）」と呼ばれる独自の仕組みにある。すべてのトークン（単語を細かく分割した断片）の組み合わせを計算するのではなく、重要な関係だけに絞って計算する。これにより計算コストがほぼ線形（O(n)、文章が2倍になっても計算量は約2倍程度）に抑えられるという。

eWeek の報告によると、コンテキストウィンドウ（一度に扱えるテキストの長さ）は1200万トークンに達する。これは小説数百冊分に相当する量だ。FlashAttention（トランスフォーマーの高速化手法）と比べると、100万トークン時点で約52倍高速だという。価格もClaude OpusやGPT-5.5の約5分の1とされている。

実務への示唆は大きい。長大なコードベースの一括解析、法律文書の全文読み込み、数年分のメールスレッドを一度に処理するといった「長文脈タスク」が劇的に安くなる可能性がある。

実務上の示唆

コスト面から長文脈AIの活用を見送っていた場面でも、SubQは現実的な選択肢になりうる
現時点ではベンダー（開発元）以外の第三者による独立した性能検証が存在しない。採用判断は独立した評価が出てから行うべきだ
「トランスフォーマーがすべて」ではなくなる可能性を示しており、AIアーキテクチャの多様化が本格化するかもしれない
長文脈が必要なユースケースを抱える組織は、今のうちに要件を整理しておくと選択肢の評価がしやすくなる

中国4社が12日間で4つのオープンウェイトコーディングモデルを投入

2026年4月7日から4月24日の間、わずか12日間で中国の主要AI企業4社が立て続けにオープンウェイト（モデルの重みが公開されており、手元のサーバーで動かせる）コーディングモデルをリリースした。各社の比較記事によると詳細は次のとおりだ。

Z.ai の GLM-5.1：総パラメータ数7440億・一度の処理で使うアクティブパラメータ約400億、コンテキスト200K（20万トークン）
Moonshot の Kimi K2.6：総パラメータ数1兆・アクティブ約320億、コンテキスト256K
MiniMax の M2.7：MoE（複数の小さなモデルを組み合わせて動かすアーキテクチャ）採用、最大100万トークンのコンテキスト
DeepSeek の V4：V4-Pro（総数1.6兆パラメータ）とV4-Flash（2840億）の2バリアント

コーディングのエージェント評価指標「SWE-Bench Pro（ソフトウェアエンジニアリングの自動化タスクを評価するベンチマーク）」では、Kimi K2.6が58.6%でトップ、僅差でGLM-5.1が58.4%、DeepSeek V4-Proが55.4%と続く。いずれもClaude OpusやGPT-5.5の推論コストの3分の1以下で提供されている。

この動きの意味は単なる性能競争ではない。オープンウェイトという形式でモデルが公開されると、企業は自社サーバーで動かすことができ、APIの利用料を払い続ける必要がなくなる。特に大量のコード生成・レビューを行う組織にとって、コスト構造が根本から変わる可能性がある。各モデルの特徴を整理すると、ベンチマーク総合ではGLM-5.1、コーディングエコシステムではKimi K2.6、長大な文書処理ではMiniMax M2.7、コストパフォーマンスではDeepSeek V4がそれぞれ強みを持つ。

実務上の示唆

自社インフラへのオープンウェイトモデルの展開が、API費用削減の現実的な手段になりつつある
コーディング支援用途であれば、西側最前線モデルと比肩する性能をずっと低コストで得られる可能性がある
12日間で4モデルというリリースペースは今後も続くと考えておくべきだ。ベンダーロックインを避けた柔軟なシステム設計が重要になる

ニューロシンボリックAIが消費電力を100分の1に削減

AIの大きな課題のひとつが電力消費だ。大規模LLMの訓練・推論は膨大なエネルギーを使い、データセンターの電力不足が社会問題になりつつある。この問題へのアプローチが、2026年4月にタフツ大学工学部から発表された。

Matthias Scheutz教授率いる研究チームが開発したのは、「ニューロシンボリックAI」と呼ばれるシステムだ。ニューラルネットワーク（大量のデータからパターンを学習する仕組み）と、シンボリック推論（論理ルールと記号を使ってステップごとに考える仕組み）を組み合わせる。人間が「直感」と「論理的思考」を使い分けるように、AIも状況に応じて両方の能力を切り替える発想だ。

ScienceDaily の報告によれば、このシステムはロボット計画タスクにおいて、標準的なVLAモデル（視覚・言語・行動を統合したロボット向けAI）の100分の1の電力で動作し、精度95%を達成した。一方、従来の標準的なVLAモデルの精度は34%にとどまった。消費電力を1%にしながら精度は約3倍という結果だ。

この研究は2026年5月にウィーンで開催される「国際ロボティクス・オートメーション会議（ICRA）」で発表された。エッジ推論（ユーザーや機器の近くにある小型コンピューターでAIを動かすこと）や、バッテリー駆動のロボット・ドローンへの応用可能性が高い。「AIは電力を大量に消費するもの」という前提が、少なくとも特定のタスクでは覆されつつある。

実務上の示唆

ロボット・IoT・自律移動体への軽量AI組み込みを検討する場合、ニューロシンボリックアプローチは検討に値する
「エネルギー効率」を重視するAI要件では、純粋なLLMに頼らない選択肢が現実的になりつつある
現状は特定タスク向けの研究段階であり、汎用LLMとの直接比較はできない。補完的な用途からPoC（試作・実証実験）を始めるのが現実的だ

まとめ

2026年5月のAI動向を一言で表すなら「多様化と低コスト化の加速」だ。SubQはトランスフォーマーを前提としない新アーキテクチャの可能性を示し、中国の4モデルは推論コストの基準を一段と引き下げた。ニューロシンボリックAIは「大きく、電力を食う」というAIのイメージそのものを問い直している。次の半年で、これらのアプローチがどれだけ実用化されるかに注目したい。

【AIニュース】推論コストの激変とインフラ成熟——エージェント時代の“地盤”が固まる

Mon, 11 May 2026 09:00:00 +0900

モデルの性能差が縮まるにつれ、競争の重心は「どれだけ賢いか」から「どこで、いくらで、どう動かすか」へ移っています。今週は、DeepSeek V4がオープンソースで性能と価格の常識を塗り替え、CloudflareがエージェントのためのAIインフラを本格整備し、さらにAIが数学研究に“共同研究者”として参加する事例が出てきた週でした。個別モデルの優劣より、インフラと経済性の設計がプロダクトの持続性を左右し始めています。

DeepSeek V4：オープンソースが“20倍のコスト差”を現実にした

DeepSeek V4は2026年4月24日にリリースされ、MITライセンスの2バリアント（V4-Pro・V4-Flash）として公開されました（DeepSeek API Docs）。100万トークンのコンテキストウィンドウを持ち、V4-ProはSWE-benchコーディングベンチマークでClaude Opus 4.6とわずか0.2ポイント差の性能です（DEV Community）。

注目すべきはコストです。V4-Proは100万トークンあたり$3.48、Claude Opus 4.6は$75——約21倍の価格差がありながら、コーディングタスクではほぼ同等の性能を発揮します（Medium）。エージェント開発の現場では、すでに「トラフィックの70%をDeepSeek V4-Flash、25%をClaude Sonnet 4.6、5%をOpus 4.7」という分割運用が報告されています（BuildFastWithAI）。

実務上の示唆：コストは「モデル選定」ではなく「ルーティング設計」で決まる

単一のプレミアムモデルをすべてのリクエストに使う時代は終わりつつあります。タスクの難易度・リスク・レイテンシ要件に応じてモデルをルーティングする設計が、コストと品質のトレードオフを最適化します。
オープンウェイトモデルの採用では「誰がホストするか」「SLOをどう担保するか」が新たな設計項目になります。MITライセンスはコードの自由度を与えますが、インフラコスト・セキュリティ・バージョン管理は自社で抱える必要があります。
コーディング以外のタスク（長文分析、推論、多言語対応）では性能差が広がる場合があります。ベンチマークスコアではなく、自社のタスク分布での評価が、ルーティング戦略の基盤になります。

CloudflareがAgents Weekでエージェント専用インフラを整備

Cloudflareは「Agents Week 2026」でエージェント運用を前提としたインフラ群を一斉公開しました（Cloudflare Blog）。中核は独自の推論エンジンInfireで、Rustで実装されており、複数GPUをまたいでLLMを効率的に実行します（Cloudflare Blog）。

InfireはプリフィルとデコードをGPUで分離する「分離プリフィル（disaggregated prefill）」を採用し、各ステージを独立してスケールできる設計です（InfoQ）。この最適化により、Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動作させながら、KVキャッシュのためのメモリを確保できています（InfoQ）。330都市のデータセンター網を活かし、ユーザーと推論エンドポイントの双方に近い位置でAI Gatewayを機能させる設計です（Cloudflare Blog）。

実務上の示唆：エッジ推論は「レイテンシ」より「状態管理」が先の課題

エージェントのユースケースでは、推論の低レイテンシと同等かそれ以上に、ツール呼び出し結果や会話状態の管理が設計の要になります。インフラを選ぶ際は、「速い」だけでなく「状態をどこに、どう持つか」の仕様を確認するべきです。
分離プリフィル設計はスループット効率を高める一方、バースト時の挙動やコールドスタートのレイテンシに特性が出やすい構造です。SLO設計では、平均レイテンシだけでなくP99・コールドスタート時間を要件に含めることが重要です。
CloudflareのようなグローバルCDN事業者がAI推論を取り込む流れは、「モデルは外、インフラは既存CDNで」という調達モデルを現実的にします。将来の乗り換えコストと、ベンダーロックインのリスクを今の時点で整理しておく価値があります。

AIが数学の“共同研究者”に：AI Co-Mathematician

arXivに投稿された「AI Co-Mathematician」（arXiv:2605.06651）は、フロンティアモデルを補完する位置付けで、ステートフルなアーキテクチャを持つエージェント型AIを数学研究に応用した取り組みです。AlphaProofやAletheiaのような自律推論器を動的に呼び出し、長時間かかる証明探索や仮説生成を支援します。

単一の問題を解く「ツール」ではなく、研究者とともに仮説→検証→修正のサイクルを回す「共同研究者」として設計されている点が、従来の数学AIとの違いです。

実務上の示唆：専門領域エージェントは「正確さ」より「検証可能性」が鍵

数学のような検証が明確な領域でエージェントが力を発揮できるのは、出力の正否を人間が（あるいはシステムが）確認できるからです。あいまいな領域にエージェントを展開する際は、何をもって成功とするかを先に定義することが、エラーの見逃しを防ぎます。
長時間タスク（証明探索、文献調査、シミュレーション）をエージェントに委ねるには、途中状態の保存・再開と、部分的な失敗からの回復設計が不可欠です。「最後まで動いたか」だけを評価する設計では、長時間タスクの品質管理ができません。

まとめ：地盤の整備が、次のエージェント競争を決める

DeepSeek V4のコスト破壊（DeepSeek）、CloudflareのエッジAIインフラ成熟（Cloudflare）、専門領域への浸透（arXiv:2605.06651）——これらは、エージェントの「走る地盤」が急速に整備されていることを示しています。モデルの賢さが前提になりつつある今、インフラコスト・ルーティング設計・状態管理・検証可能性の整備が、プロダクトの持続的な競争力を決める局面に入っています。