MoE on hagizo.io

【AIニュース】AIが80年来の数学難問を自力証明、760Mパラメータで最先端を超える小型モデルも登場

Mon, 25 May 2026 01:00:00 +0900

AI研究の最前線で「賢さ」と「効率」の両極端を示す二つの出来事が重なった。一方でOpenAIの汎用推論モデルが80年間未解決だった数学の難問を自力で解き、AI史上初の本格的な自律数学発見を達成した。もう一方では、実行時に使うパラメータがわずか760Mというコンパクトなモデルが数学オリンピック予選で最先端クラスのスコアを叩き出し、「小さくても賢い」時代の到来を告げた。

OpenAIのAIが80年来の数学難問を自力証明

5月20日、OpenAIは公式ブログで重大な発表をした。社内の汎用推論モデルが、数学者のポール・エルデシュが1946年に提唱した離散幾何学の予想を自律的に否定する証明を発見したというものだ。

問題の中身をひとことで言うと

「平面上にn個の点を置くとき、ちょうど1単位の距離になる点ペアは最大で何組作れるか」という問いだ。エルデシュは正方グリッド（縦横等間隔の格子状配置）がほぼ最善だと予想していた。80年間、数学者たちもその前提を疑わなかった。

AIが発見したこと

OpenAIのモデルは代数的整数論の一分野「ゴロド＝シャファレヴィッチ理論（無限の代数的拡大体を構成する技法）」を独自に応用し、正方グリッドを多項式的に上回る無限個の点配置の族を発見した。出力は125ページの証明書類で、外部の数学者（プリンストン大学のWill Sawin氏）が検証・改良を加え、改善量を示す定数δ＝0.014として確定させた。

なぜこれが特別なのか

過去にもAIが数学の問題を解いた例はあったが、今回の意義は二点ある。一つ目は「数学専用に訓練されたモデルではなく汎用モデル」が達成した点。二つ目は「著名なサブ分野の中心的な未解決問題」が対象だった点だ。計算機を使った証明補助ツールとは次元が異なり、AIが新しい数学的アイデアを自分で生み出したと言える。

実務上の示唆

「AIは資料をまとめるだけ」という認識はもはや実態を反映していない。仮説生成や定理探索への応用が現実的な選択肢になりつつある
一方で今回も外部数学者による検証が不可欠だったように、AIの出力を批判的に確認するプロセスは引き続き必要だ
製薬・材料科学・経済モデルなど「仮説の数が膨大な分野」への応用研究が今後加速するとみられる

ZAYA1-8B：760Mの実行パラメータで数学オリンピックを攻略

5月6〜7日、スタートアップのZyphra社がZAYA1-8BをApache 2.0ライセンスで公開した。名前に「8B」とあるが、実際に推論時に動かすパラメータは760M（約7億6000万）だけだ。この数字の意味を実感するために比べると、GPT-3は1750億パラメータを常時フル稼働させていた。

MoEという「専門家チーム」の仕組み

MoE（Mixture of Experts：入力ごとに一部の専門サブモデルだけを呼び出す構造）は、全パラメータを毎回使わずに済む設計だ。本の索引と似ていて、質問の内容に応じて「その分野が得意な専門家」だけが計算を担当する。ZAYA1-8Bは8.4Bのパラメータを持ちながら、1回の推論では760M分しか動かさない。

ベンチマーク結果

VentureBeatの記事によると、数学オリンピック予選に相当するAIME'25で**91.9%**を記録した。GPT-4o・Claude 4.5 Sonnet・Gemini 2.5 Proといった大型フロンティアモデルの上限とされる約90%を上回る。コーディング評価LiveCodeBenchも65.8%と実用域だ。

AMD製GPUで訓練したことの意味

学習にはAMD Instinct MI300XとAMD Pensando Pollaraネットワークを使ったIBM Cloudクラスターを利用した。NVIDIAのH100/H200が事実上の標準だったAI訓練インフラにおいて、AMD環境でここまでの性能を実現したことは、GPU市場の多様化を示す事例として業界に注目されている。

KVキャッシュ圧縮という技術上のポイント

ZAYA1-8BはCCA（Compressed Convolutional Attention：圧縮畳み込みアテンション）という独自の仕組みを使い、KVキャッシュ（モデルが文脈を保持するための一時メモリ）を通常比8分の1に圧縮する。長い文章を処理するほどメモリ消費が増える問題（計算量が文章の長さの2乗に比例して増える「2乗問題」）を緩和し、限られたメモリでも長い会話を扱いやすくしている。

実務上の示唆

Apache 2.0ライセンスのため商用利用・改変が自由。社内システムへの組み込みや派生モデルの開発に使いやすい
実行パラメータが小さい分、APIコストや自前サーバーの消費電力を大幅に抑えられる。数学・コーディング特化の用途では大型モデルを使わない選択肢として検討の価値がある
AMDエコシステムでの訓練実績は、NVIDIA依存から脱却したいインフラ担当者にとって有力な事例になる

まとめ

今週のAIニュースは「どこまで賢くなれるか」と「どこまで小さくできるか」という二つの問いへの答えが同時に更新された週だった。OpenAIのモデルは80年分の数学的直感を覆す発見をし、ZAYA1-8Bは760Mという小さな体で大型モデルの背中を追い越した。どちらの進展も、AIを「使う側」として見ると、選択肢と可能性の広がりを意味している。

【AIニュース】オープンウェイトのフロンティア追随とエージェントインフラの成熟

Thu, 14 May 2026 09:00:00 +0900

オープンウェイトモデルがコーディングやエージェント系ベンチマークでフロンティアモデルに肩を並べる局面が、ここ数週間で一気に現実になってきた。単なる性能追随にとどまらず、KVキャッシュ（モデルが処理した文脈情報の一時保存領域）圧縮やエッジ推論インフラの整備が組み合わさることで、実務で使える「高性能×低コスト×自社制御」という選択肢の幅が急速に広がっている。

Kimi K2.6 — コーディングでGPT-5.5に並んだオープンウェイトモデル

Moonshot AIが公開したKimi K2.6は、総パラメータ1兆のMixture-of-Experts（MoE）アーキテクチャ（アクティブ320億）を採用し、実世界ソフトウェアエンジニアリングの難関ベンチマークであるSWE-Bench Proで58.6%を記録、GPT-5.5と同スコアに並んだ。256Kトークンのコンテキスト長を持ち、修正MITライセンスでHugging Faceから無料でダウンロード可能。APIコストはGPT-5.5比で入力5分の1、出力7分の1以下と大幅に安い。

実務上の示唆

コーディングエージェントのコスト試算を見直す: クローズドモデルの性能的優位という前提が崩れた節目であり、GPT-5.5やClaude Opus 4.7を使っているコード生成・リファクタリングパイプラインは代替検討のタイミングに来ている。
機密コードのセルフホスティングが現実的に: オープンウェイトなので社内GPUへのデプロイが可能。社外に送れないコードベースの解析ユースケースにおいて、フロンティア水準の品質が手の届く範囲になった。
汎用タスクには依然差がある: 総合指数ではGPT-5.5（60）に対しK2.6（54）と差があるため、コーディング特化か汎用かで使い分けの評価軸を持つことが重要。

DeepSeek V4 — 1.6兆パラメータ・100万コンテキスト・MITライセンス

DeepSeekがDeepSeek V4-Pro（総1.6兆パラメータ、アクティブ490億）とV4-Flash（総284億、アクティブ130億）をMITライセンスで公開した。コンテキスト長は100万トークン。ハイブリッドアテンション（CSA+HCA）により前世代V3.2比でシングルトークン推論FLOPs（AI計算量の単位）を27%、KVキャッシュ（モデルが処理した文脈情報の一時保存領域）を90%削減している。エージェント系ベンチマークではGPT-5.5・Claude Opus 4.7と肩を並べており、「セルフホスト可能なフロンティアモデル」として注目を集めている（DeepSeek公式）。

実務上の示唆

大規模ドキュメント解析を自社インフラで: 100万トークン×MITライセンスの組み合わせで、法律文書・医療記録・大規模コードベースの一括解析を社内で処理できる。クラウドAPIへの依存を減らしながらプライバシーを担保したいケースに直接刺さる。
MoE設計のコスト効率を活かす: アクティブパラメータ490億でフロンティア相当の性能が出るMoEは、APIコストの高いエージェントループのバックボーンとして採用を検討できる。
V4-Flashで軽量化: 1.6Tモデルの自社運用には大規模GPUクラスタが必要。まずV4-Flashで品質を検証し、必要なタスクにのみV4-Proを当てるという段階的アプローチが現実的。

Google TurboQuant — KVキャッシュを3ビットに圧縮、メモリ6倍削減

Googleが発表したTurboQuantは、LLM推論時のKVキャッシュ（モデルが処理した文脈情報の一時保存領域）を3ビットまで圧縮し、メモリ使用量を最大6倍削減・H100でのアテンション計算をFP32比最大8倍高速化する技術だ。ランダム直交回転とJohnson-Lindenstrauss変換（数学的変換でデータを低次元に圧縮する手法）を組み合わせた2段階パイプラインにより、ファインチューニング不要でGemmaやMistralに適用でき、精度劣化なしを実証済み。128Kトークンのプロンプト処理でLlama 3 70BのKVキャッシュが最大40GBに達するという長文脈処理のボトルネックを解消する可能性を持つ。

実務上の示唆

長文脈サービスのバッチサイズが劇的に拡大: 法律文書・医療記録・長大コードベースを扱うサービスは、同一GPU上で扱えるバッチサイズが増え、推論コストを大幅に削減できる見込み。
今すぐ試せるOSS実装が存在: llama.cpp向けなどの実装がGitHubで公開されており、自社ホスト環境への統合が即日可能な段階にある。
RAGアーキテクチャの設計見直しのトリガーに: KVキャッシュ効率向上はコンテキスト長の実用上限を引き上げるため、「検索して短くまとめる」RAG（関連情報を検索してAIに渡す手法）と「長文脈にそのまま投げる」アプローチのトレードオフを再評価するタイミング。

Cloudflare Agents Week 2026 — エッジ推論とマルチプロバイダー統合が前進

CloudflareはAgents Week 2026（5月開催）で20以上の新機能を発表。独自RustベースのInfire推論エンジンを活用し、OpenAI・Anthropic・Google・xAI等70以上のモデルを単一エンドポイントで呼び出せるAI Gatewayを拡充。独自の「Unweight」技術でモデル重みを15〜22%無損失圧縮し推論コストを削減。分散プリフィル（prefill/decode分離）アーキテクチャによりKimi K2.5などの大型オープンモデルをエッジで直接ホスティング提供する。

実務上の示唆

マルチモデルルーティングがワンライン変更で実現: タスク種別に応じたモデル動的切替が容易になり、コストと品質のトレードオフ管理がシンプルになった。
リアルタイムアプリでのLLM活用の障壁が低下: エッジ推論の実用化により、地理的レイテンシ要件が厳しい音声・ゲーム・IoT等のリアルタイムアプリへのLLM組み込みが現実的になった。
ベンダーロックイン回避の具体的手段として評価できる: 単一プロバイダー依存リスクを減らすマルチプロバイダー統合APIの整備は、企業のAI調達戦略において今すぐ検討に値するオプション。

まとめ

今週は「オープンウェイトモデルのフロンティア追随」「長文脈処理コストの削減」「エージェント向けインフラの成熟」という3つの潮流が一気に可視化された。Kimi K2.6・DeepSeek V4はコーディングとエージェント系ベンチマークでクローズドモデルと並び、Google TurboQuantとCloudflareの新機能はその活用コストを引き下げる。自社インフラでフロンティア水準のモデルを動かすという選択肢が、以前よりずっと現実的になっている。これらのモデルを使ったエージェントシステムを評価・検討するなら、今が動くべきタイミングだ。