コーディングAI on hagizo.io

【AIニュース】Fable 5でAnthropicが頂点へ、Gemini 3.5 FlashはSearch制覇、そしてAIがDeFiを動かす時代

Wed, 10 Jun 2026 00:00:00 +0900

AIの競争が「誰が最強か」というフェーズから「どこまで使えるか」というフェーズに移行しつつある。Anthropicは昨日（6月9日）、Mythos（ミソス）クラスのモデルをついて一般公開し、Googleはそのモデルを検索のコアに組み込み、MetaMaskはAIエージェントに暗号資産の取引権限を与えた。今週のAI界隈は、技術の進化が日常のインフラへと静かに染み出す1週間だった。

Claude Fable 5 & Mythos 5 ── Anthropicが「研究所の頂」を一般開放

Anthropicは6月9日、Claude Fable 5とClaude Mythos 5を正式リリースした。

「Mythos」とはAnthropicが社内で研究してきた最上位モデルのコードネームだ。これまでは一部の研究者や安全審査パートナーにしか提供されていなかった。今回のFable 5は、そのMythosクラスの性能を一般ユーザー向けに安全調整して公開したモデルだと理解できる。

ベンチマーク：特にコーディングが別次元

最も注目すべきは、ソフトウェア開発の評価指標であるSWE-Bench（実際のGitHubの課題を自律解決させるテスト）のスコアだ。

SWE-Bench Pro（難易度の高い上位問題のみ）：Fable 5が80.3%、Claude Opus 4.8が69.2%、GPT-5.5が58.6%、Gemini 3.1 Proが54.2%
FrontierCode（最上位難易度の実コード課題）：Fable 5が29.3%、Opus 4.8が13.4%、GPT-5.5がわずか5.7%

FrontierCodeでFable 5がGPT-5.5の5倍以上のスコアを出しているのは驚異的だ。実際の開発業務、特に「難しいバグの修正」や「新機能の自律実装」では、モデル間の差が実感として大きく出やすい領域でもある。

Mythos 5は「制限を外した版」

Fable 5と同時に公開されたClaude Mythos 5は、ベースモデルは同じながら、サイバーセキュリティや生物・化学などの高リスク分野での制限を一部緩和したモデルだ。ただし利用できるのは「Project Glasswing」を通じて認証されたサイバー防衛機関やインフラプロバイダーに限られる。

通常版のFable 5でも、サイバーセキュリティ・生物化学・モデル蒸留（既存モデルの知識を小さいモデルに転写する技術）に関するクエリは、自動的にClaude Opus 4.8にルーティングされる設計になっている。この切り替えが発生するのは全セッションの5%未満とされており、通常の業務には影響がないレベルだ。

価格と提供チャネル

価格は入力トークン100万あたり10ドル、出力トークン100万あたり50ドル（APIの場合）。6月22日まではPro・Max・Team・Enterprise向けの各プランで追加料金なしで利用できる。またAmazon BedrockやDatabricksでも即日利用可能となっている。

実務上の示唆

コーディングエージェントとして使う場合、FrontierCodeスコアの差はPRのレビューレベルや複雑リファクタリングで顕著に出る。既存のOpus 4.8ベースのワークフローは早めに移行を検討したい
SWE-Bench Pro 80%超えは「難しいタスクでも8割は自律で完結する」水準。CI/CDパイプラインにAI自律修正ステップを組み込む判断の根拠になりうる
Mythos 5の存在は、Anthropicが「高リスク用途への安全な対応」を制度的に整えつつあることを示している。業務での利用ポリシー策定時に参考にしたい
6月22日までの無料トライアル期間を使って、現行ワークフローとのフィット感を検証するのが得策

Gemini 3.5 Flash ── Google Searchを動かすデフォルトエンジンに

Googleは今週、Gemini 3.5 FlashをGoogle SearchのAIモード（「AIによる概要」機能）のデフォルトモデルとして全世界展開した。これはAIが「対話ツール」を超えて「検索インフラそのもの」の中核を担った、象徴的な出来事だ。

Gemini 3.5 Flashは5月19日のGoogle I/Oで発表された。「Flash」という名が示す通り、速度が特徴で、他のフロンティアモデルと比較してアウトプット生成速度が4倍速いとGoogleは主張している。

パフォーマンスの全体像

ベンチマークでは以下の数値が確認されている。

Terminal-Bench 2.1（ターミナル上でのエージェント作業評価）：76.2%
MCP Atlas（MCP＝Model Context Protocol、AIとツールの連携評価）：83.6%
CharXiv Reasoning（グラフ・図表の視覚的理解）：84.2%
Artificial Analysis Intelligence Indexで55点（前世代Gemini 3 Flashから9点向上）

一方、Gemini 3.1 ProにはHumanity’s Last Exam（難問集）で44.4% vs 40.2%と負けており、「最高知能」ではなく「速さと実用性のバランス」を重視したモデルだとわかる。

Gemini Sparkとの関係

5月19日のI/Oで同時発表されたGemini Sparkは、Gemini 3.5をベースにした「24時間365日稼働のパーソナルAIエージェント」だ。ユーザーがGmailの専用アドレスにメールを送るとSparkが動き出し、ウェブ検索・カレンダー操作・Chrome上でのウェブ操作などを、ユーザーが画面を開かなくても自律的にこなす。

現在はAI Ultraサブスクライバー向けにベータ展開中で、Gemini 3.5 FlashがSearchのデフォルトになったことと合わせると、Googleは「強力なエンジン＋パーソナルエージェント」という二段構えでAI体験を構築しようとしている。

価格

Gemini 3.5 FlashのAPI価格は入力100万トークンあたり1.50ドル、出力9.00ドル。Gemini 3.1 Proより25%安いが、前世代のGemini 3 Flash Previewの3倍の価格になる点には注意が必要だ。

実務上の示唆

MCP Atlas 83.6%という数字は、AIとAPIやツールの連携（MCP）がこのモデルで大幅に改善されていることを示す。MCPを使ったエージェント構築をGemini系で行う場合、3.1 Proから3.5 Flashへの切り替えを検討する価値がある
Google Searchのデフォルトがこのモデルになった事実は、エンドユーザーが意識しないところでAIの品質が上がることを意味する。企業の広報・SEO担当はAIによる検索概要の精度が変わることを念頭に置くべき
Gemini Sparkのようなロングホライズンエージェント（人間の介入なしに長い作業を続けるAI）の普及で、「タスクをメールで投げる」という新しいワークスタイルが現実味を帯びてきた

MetaMask Agent Wallet ── AIがDeFiを自律取引する時代の始まり

6月8日、仮想通貨ウォレット大手のMetaMaskがAgent Walletを発表した。これは、AIエージェントがEVMチェーン（イーサリアムおよびその互換ブロックチェーン）上でDeFi（分散型金融）の取引を、人間の直接承認なしに実行できる仕組みだ。

DeFiとは、銀行などの仲介者を使わずにスマートコントラクト（自動執行プログラム）で動く金融サービスの総称で、両替・貸し借り・流動性提供などが対象になる。

Agent Walletの主な特徴は3つだ。

強制的なセキュリティチェック：AIエージェントが取引を実行する前に、設定した上限金額・取引先ホワイトリスト・許可操作タイプのすべてをチェックする。1つでも条件を満たさない場合、取引はキャンセルされる
EVM全チェーン対応：イーサリアム本体だけでなく、Polygon・Arbitrum・Baseなどの低コストチェーン上のDeFiにも対応している
DeFiプリミティブへの直接アクセス：スワップ（通貨両替）・貸し出し（レンディング）・流動性提供（LP）といった基本的なDeFi操作をエージェントが直接呼び出せる

同時期に発表されたagnt8x（EightX Labs）のプラットフォームは、AIエージェントを採用・オンボーディング・運用・収益化するためのマーケットプレイスで、エージェントに「Passport（監査証跡）」を発行し、複数エージェントの協調作業を管理する「コンダクター」機能を持つ。Apache 2.0ライセンスで公開されており、企業がエージェントを社内組み込みやすい設計になっている。

実務上の示唆

MetaMask Agent Walletは「AIが資産を動かす」という新しいリスクカテゴリを生む。導入を検討する場合、セキュリティルール（上限額・ホワイトリスト）の設計が成否を決める最重要要素になる
DeFiの自律運用が可能になると、裁定取引（価格差を使った利益獲得）や流動性管理の自動化が個人・中小企業でも現実的になる。一方でスマートコントラクトのバグを突いた攻撃リスクも増大する
agnt8xのような「エージェントのマーケットプレイス」が整備されると、AIエージェントを「採用する」感覚で業務に組み込む時代が来る。社内エージェントのガバナンス設計を今から考えておく意義がある
金融規制（特に日本の資金決済法や金融商品取引法）がAIによる自律取引をどう扱うかは未整備な部分が多い。法務確認なしに本番運用するのは現時点ではリスクが高い

まとめ

AnthropicのFable 5はコーディング・科学分野で既存モデルとの差を大きく広げ、「AIに任せる」判断の閾値をさらに下げた。GoogleはGemini 3.5 FlashをSearchの心臓部に据え、SparkというパーソナルエージェントでAIを生活のインフラに組み込もうとしている。そしてMetaMaskはAIに財布を手渡した。

今週のニュースが示すのは、AIが「使うツール」から「動いているシステム」へと変わりつつある流れだ。各自のワークフロー・セキュリティ設計・法的ルールの見直しを、変化のスピードに合わせて進めておきたい。

【AIニュース】マルチモーダルエージェントと中国発コーディングモデルが競争を加速

Thu, 14 May 2026 10:00:00 +0900

マルチモーダルAIエージェントの完成度が一段と高まり、同時に中国発のオープンウェイトコーディングモデルが西側フロンティアと肩を並べる段階に入った。効率化技術も進み、GoogleのTurboQuantがKVキャッシュ（モデルが処理した文脈情報の一時保存領域）圧縮で新たな基準を打ち立てる中、AI推論のコスト構造が根本から書き換えられようとしている。

NVIDIAのNemotron 3 Nano Omni——マルチモーダルエージェントの新基準

2026年5月12日、NVIDIAはNemotron 3 Nano Omniを発表した。テキスト・画像・音声・動画を横断して処理できるオープンマルチモーダルモデルであり、複雑な文書インテリジェンス、動画・音声理解の6つのリーダーボードでトップを記録した。従来の専用モデルと比較して最大9倍の効率改善が謳われており、エンタープライズ向けAIエージェント開発における実用コストを大幅に引き下げる可能性がある。

HuggingFace、OpenRouter、build.nvidia.com上でNIM（NVIDIA Inference Microservice）として提供されており、主要クラウドサービスプロバイダーを通じたアクセスも可能だ。同モデルの特徴は、単一のオムニモデルが視覚・音声・言語を統合的に扱える点にある。これまで複数のモデルを組み合わせてパイプラインを構築していたアーキテクチャが、単一エンドポイントに置き換わることで、レイテンシの削減とインフラコストの圧縮が期待できる。

実務上の示唆

マルチメディアを扱う顧客サポートや品質検査ワークフローでは、複数モデル連携から単一オムニモデルへの移行を検討する価値がある。
NVIDIAのNIMフレームワークを通じて、既存のクラウドインフラへの統合が容易なため、PoC（概念実証）のエントリーコストが下がる。
文書インテリジェンス用途（OCR＋理解＋要約）のスタックを再評価するタイミングといえる。
オープンウェイトのため、セキュリティ要件の厳しい社内環境へのオンプレミス展開も現実的な選択肢になる。

中国発コーディングモデルの集中リリース——Kimi K2.6がSWE-Bench Proで世界トップ

4月7日から24日の間に、中国の4つのAIラボが立て続けにオープンウェイトのコーディングモデルをリリースした。Z.aiのGLM-5.1、MiniMax M2.7、Moonshot AIのKimi K2.6、DeepSeek V4の4モデルが、同等のエージェント工学能力帯において西側フロンティアモデルの3分の1以下のコストで競合できると評価された。

中でも注目されるのがKimi K2.6だ。SWE-Bench Pro（実際のソフトウェアバグ修正能力を測る難関ベンチマーク）において、オープンウェイトモデルとして初めてGPT-5.4（xhigh）を上回るスコアを記録した。Claude Opus 4.7との能力差は10ポイントにとどまりながら、価格は3.6倍安い（入力$0.16/M tokens）。DeepSeek V4 Proも89/100と高水準で、DeepClaudeを経由したアクセスでTier Aの評価を獲得している。

この「12日間で4モデル」という状況は、単なる一時的な競争激化ではなく、中国AIエコシステムの組織的な研究開発体制が成熟しつつある証左と読むべきだ。DeepSeekが先駆けたキャッシュヒット価格設定（$0.07/M）の戦略をKimiが踏襲し、価格競争が加速している。

実務上の示唆

コーディングアシスタントやSWE-Agentのバックエンドとして、西側フロンティアモデルの代替を検討する実務的な理由が生まれている。
法的・コンプライアンス上の制約がなければ、Kimi K2.6またはDeepSeek V4をコスト最適化の選択肢として評価すべきタイミングだ。
価格設定がキャッシュヒット中心にシフトしている点に注目し、プロンプトの共通部分をプレフィックスとして設計するアーキテクチャが有利になる。
オープンウェイトモデルはセルフホスティング可能なため、ベンダーロックインリスクを抑えた中長期調達戦略の柱になり得る。

Google TurboQuant——KVキャッシュを6倍圧縮するLLM推論効率化

ICLR 2026（機械学習のトップ国際学会）で正式発表されたGoogle DeepMindのTurboQuant（arXiv: 2504.19874）は、LLM推論のボトルネックであるKVキャッシュ（モデルが処理した文脈情報の一時保存領域）を6倍圧縮し、アテンション計算を最大8倍高速化するアルゴリズムだ。PolarQuant（ベクトルを回転させて量子化しやすくする手法）と、Quantized Johnson-Lindenstrauss圧縮（数学的変換でデータを低ビットに圧縮する手法）の2段階プロセスを採用し、キーを3ビット、バリューを2ビットに量子化する。

注目すべきはトレーニングや追加ファインチューニングを一切必要としない点だ。既存モデルに対してポスト学習処理として適用でき、精度の劣化がほぼゼロとされている。オープンソース実装もGitHub上で複数公開されており（AmesianX/TurboQuant、OnlyTerp/turboquant）、llama.cppへの統合議論も進んでいる。

KVキャッシュはロングコンテキスト推論やマルチターン対話においてGPUメモリの主要消費源となっており、6倍圧縮は同一ハードウェアでの実質的なコンテキストウィンドウ拡大またはスループット向上を意味する。TechCrunchはこの研究をPied Piperになぞらえて報じており、業界全体への波及効果の大きさを示唆している。

実務上の示唆

長文書処理や多ターン会話に強依存するサービスでは、TurboQuantの適用によりインフラコストを削減できる可能性がある。
トレーニング不要なポスト処理として適用できるため、既存ファインチューニング済みモデルにも追加コストなしで適用できる。
llama.cppやvLLMへの統合が進めば、ローカル推論環境でも大型モデルの運用が現実的になる。
量子化の副作用として一部タスクでの精度変動を定期的にモニタリングする評価パイプラインを整備しておくことを推奨する。

まとめ

今週のAI領域を俯瞰すると、三つの独立した動きがひとつの方向を指している——「同等の能力をより少ないコストと計算資源で」というベクトルだ。NVIDIAのNemotron 3 Nano Omniはマルチモーダル処理を単一モデルに集約し、中国発コーディングモデル群は西側フロンティアの性能を3分の1以下のコストで実現し、TurboQuantはKVキャッシュ圧縮によって既存モデルの推論コストを根本から変える。効率競争はもはや研究室のベンチマークではなく、実運用のコスト構造に直接影響を与える段階に入った。

OpenAI GPT-4.1シリーズを再評価：コーディング・指示追従・長文処理を底上げした開発者向けモデル

Tue, 28 Apr 2026 19:25:00 +0900

GPT-4.1シリーズは2025年4月の発表ですが、2026年4月時点でも開発者向けAIモデルの重要な転換点として見直す価値があります。OpenAIはGPT-4.1、GPT-4.1 mini、GPT-4.1 nanoをAPI向けに公開し、コーディング、指示追従、長文コンテキスト理解でGPT-4oを上回ると説明しました OpenAI。今から振り返ると、このシリーズは「チャットで賢いAI」から「仕様通りに動くAI」へ向かう流れの前兆でした。

GPT-4.1シリーズの位置づけ

OpenAIはGPT-4.1シリーズを、APIで使える3モデル構成として発表しました OpenAI。GPT-4.1は最も高性能な非推論モデル、GPT-4.1 miniは性能とコストのバランス型、GPT-4.1 nanoはOpenAI初のnanoモデルとして、分類や補完のような高頻度処理に向いた選択肢とされました OpenAI。

当時のポイントは、全モデルが最大100万トークンのコンテキストを扱えることでした OpenAI。長い仕様書、ログ、コードベース、顧客履歴を一度に渡せることは、RAGやエージェントの実装を単純化します。特に、細かく検索して断片を渡す設計から、広い文脈を保持しながら処理する設計へ移るきっかけになりました。

コーディング能力の改善

OpenAIによると、GPT-4.1はSWE-bench Verifiedで54.6%を記録し、GPT-4oより21.4ポイント、GPT-4.5より26.6ポイント改善しました OpenAI。Reutersも、GPT-4.1シリーズはコーディング、指示追従、長文理解を改善し、AIエージェントの基盤として有効だと報じています Reuters。

この改善は、単にコードを生成する能力だけではありません。実務のコーディング支援では、既存の制約を守る、差分を壊さない、曖昧な依頼を仕様に落とす、テスト失敗を読んで原因を絞る、といった「指示に忠実な作業」が重要です。GPT-4.1が注目された理由は、こうした開発現場の作業単位に近い性能改善が示されたからです。

miniとnanoが示した価格設計

GPT-4.1 miniはGPT-4oを多くの評価で上回りながら、遅延をほぼ半分にし、コストを83%削減したとOpenAIは説明しました OpenAI。GPT-4.1 nanoはOpenAIの最速・最安モデルとして位置づけられ、MMLU 80.1%、GPQA 50.3%、Aider polyglot coding 9.8%を記録したとされています OpenAI。

この構成は、後のモデルルーティング設計につながります。すべてを最上位モデルで処理するのではなく、分類、抽出、補完、整形のような軽い処理はnanoやminiに寄せ、複雑な推論や設計判断だけ上位モデルに送る。GPT-4.1シリーズは、そのような「用途別モデル選択」をOpenAI自身が強く打ち出した世代でした。

2026年時点での意味

2026年のAI開発では、GPT-5系、Claude、Gemini、DeepSeekなど多くの選択肢があります。それでもGPT-4.1シリーズの意味は薄れていません。なぜなら、このシリーズはコーディング、指示追従、長文処理という、エージェント実装で今も中心にある3要素を明確に前面へ出したからです。

開発者にとって重要なのは、最新モデル名だけを追うことではありません。どのモデルが指示をどの程度厳密に守るか、長いコンテキストのどこを見落とすか、低コストモデルでどこまで任せられるかを検証することです。GPT-4.1シリーズは、その評価軸を作ったモデル群として、2026年時点でも十分に参照価値があります。

まとめ

GPT-4.1シリーズは、OpenAIが開発者向けAIを「賢い応答」から「実務で使える作業単位」へ近づけた発表でした。GPT-4.1はコーディングと指示追従を強化し、miniとnanoはコストとレイテンシを抑えた運用設計を可能にしました OpenAI。2026年の今こそ、GPT-4.1を単なる旧世代モデルではなく、AIエージェント時代の設計思想を先取りしたシリーズとして捉え直すべきです。