AIの競争が「誰が最強か」というフェーズから「どこまで使えるか」というフェーズに移行しつつある。Anthropicは昨日(6月9日)、Mythos(ミソス)クラスのモデルをついて一般公開し、Googleはそのモデルを検索のコアに組み込み、MetaMaskはAIエージェントに暗号資産の取引権限を与えた。今週のAI界隈は、技術の進化が日常のインフラへと静かに染み出す1週間だった。
Claude Fable 5 & Mythos 5 ── Anthropicが「研究所の頂」を一般開放
Anthropicは6月9日、Claude Fable 5とClaude Mythos 5を正式リリースした。
「Mythos」とはAnthropicが社内で研究してきた最上位モデルのコードネームだ。これまでは一部の研究者や安全審査パートナーにしか提供されていなかった。今回のFable 5は、そのMythosクラスの性能を一般ユーザー向けに安全調整して公開したモデルだと理解できる。
ベンチマーク:特にコーディングが別次元
最も注目すべきは、ソフトウェア開発の評価指標であるSWE-Bench(実際のGitHubの課題を自律解決させるテスト)のスコアだ。
- SWE-Bench Pro(難易度の高い上位問題のみ):Fable 5が80.3%、Claude Opus 4.8が69.2%、GPT-5.5が58.6%、Gemini 3.1 Proが54.2%
- FrontierCode(最上位難易度の実コード課題):Fable 5が29.3%、Opus 4.8が13.4%、GPT-5.5がわずか5.7%
FrontierCodeでFable 5がGPT-5.5の5倍以上のスコアを出しているのは驚異的だ。実際の開発業務、特に「難しいバグの修正」や「新機能の自律実装」では、モデル間の差が実感として大きく出やすい領域でもある。
Mythos 5は「制限を外した版」
Fable 5と同時に公開されたClaude Mythos 5は、ベースモデルは同じながら、サイバーセキュリティや生物・化学などの高リスク分野での制限を一部緩和したモデルだ。ただし利用できるのは「Project Glasswing」を通じて認証されたサイバー防衛機関やインフラプロバイダーに限られる。
通常版のFable 5でも、サイバーセキュリティ・生物化学・モデル蒸留(既存モデルの知識を小さいモデルに転写する技術)に関するクエリは、自動的にClaude Opus 4.8にルーティングされる設計になっている。この切り替えが発生するのは全セッションの5%未満とされており、通常の業務には影響がないレベルだ。
価格と提供チャネル
価格は入力トークン100万あたり10ドル、出力トークン100万あたり50ドル(APIの場合)。6月22日まではPro・Max・Team・Enterprise向けの各プランで追加料金なしで利用できる。またAmazon BedrockやDatabricksでも即日利用可能となっている。
実務上の示唆
- コーディングエージェントとして使う場合、FrontierCodeスコアの差はPRのレビューレベルや複雑リファクタリングで顕著に出る。既存のOpus 4.8ベースのワークフローは早めに移行を検討したい
- SWE-Bench Pro 80%超えは「難しいタスクでも8割は自律で完結する」水準。CI/CDパイプラインにAI自律修正ステップを組み込む判断の根拠になりうる
- Mythos 5の存在は、Anthropicが「高リスク用途への安全な対応」を制度的に整えつつあることを示している。業務での利用ポリシー策定時に参考にしたい
- 6月22日までの無料トライアル期間を使って、現行ワークフローとのフィット感を検証するのが得策
Gemini 3.5 Flash ── Google Searchを動かすデフォルトエンジンに
Googleは今週、Gemini 3.5 FlashをGoogle SearchのAIモード(「AIによる概要」機能)のデフォルトモデルとして全世界展開した。これはAIが「対話ツール」を超えて「検索インフラそのもの」の中核を担った、象徴的な出来事だ。
Gemini 3.5 Flashは5月19日のGoogle I/Oで発表された。「Flash」という名が示す通り、速度が特徴で、他のフロンティアモデルと比較してアウトプット生成速度が4倍速いとGoogleは主張している。
パフォーマンスの全体像
ベンチマークでは以下の数値が確認されている。
- Terminal-Bench 2.1(ターミナル上でのエージェント作業評価):76.2%
- MCP Atlas(MCP=Model Context Protocol、AIとツールの連携評価):83.6%
- CharXiv Reasoning(グラフ・図表の視覚的理解):84.2%
- Artificial Analysis Intelligence Indexで55点(前世代Gemini 3 Flashから9点向上)
一方、Gemini 3.1 ProにはHumanity’s Last Exam(難問集)で44.4% vs 40.2%と負けており、「最高知能」ではなく「速さと実用性のバランス」を重視したモデルだとわかる。
Gemini Sparkとの関係
5月19日のI/Oで同時発表されたGemini Sparkは、Gemini 3.5をベースにした「24時間365日稼働のパーソナルAIエージェント」だ。ユーザーがGmailの専用アドレスにメールを送るとSparkが動き出し、ウェブ検索・カレンダー操作・Chrome上でのウェブ操作などを、ユーザーが画面を開かなくても自律的にこなす。
現在はAI Ultraサブスクライバー向けにベータ展開中で、Gemini 3.5 FlashがSearchのデフォルトになったことと合わせると、Googleは「強力なエンジン+パーソナルエージェント」という二段構えでAI体験を構築しようとしている。
価格
Gemini 3.5 FlashのAPI価格は入力100万トークンあたり1.50ドル、出力9.00ドル。Gemini 3.1 Proより25%安いが、前世代のGemini 3 Flash Previewの3倍の価格になる点には注意が必要だ。
実務上の示唆
- MCP Atlas 83.6%という数字は、AIとAPIやツールの連携(MCP)がこのモデルで大幅に改善されていることを示す。MCPを使ったエージェント構築をGemini系で行う場合、3.1 Proから3.5 Flashへの切り替えを検討する価値がある
- Google Searchのデフォルトがこのモデルになった事実は、エンドユーザーが意識しないところでAIの品質が上がることを意味する。企業の広報・SEO担当はAIによる検索概要の精度が変わることを念頭に置くべき
- Gemini Sparkのようなロングホライズンエージェント(人間の介入なしに長い作業を続けるAI)の普及で、「タスクをメールで投げる」という新しいワークスタイルが現実味を帯びてきた
MetaMask Agent Wallet ── AIがDeFiを自律取引する時代の始まり
6月8日、仮想通貨ウォレット大手のMetaMaskがAgent Walletを発表した。これは、AIエージェントがEVMチェーン(イーサリアムおよびその互換ブロックチェーン)上でDeFi(分散型金融)の取引を、人間の直接承認なしに実行できる仕組みだ。
DeFiとは、銀行などの仲介者を使わずにスマートコントラクト(自動執行プログラム)で動く金融サービスの総称で、両替・貸し借り・流動性提供などが対象になる。
Agent Walletの主な特徴は3つだ。
- 強制的なセキュリティチェック:AIエージェントが取引を実行する前に、設定した上限金額・取引先ホワイトリスト・許可操作タイプのすべてをチェックする。1つでも条件を満たさない場合、取引はキャンセルされる
- EVM全チェーン対応:イーサリアム本体だけでなく、Polygon・Arbitrum・Baseなどの低コストチェーン上のDeFiにも対応している
- DeFiプリミティブへの直接アクセス:スワップ(通貨両替)・貸し出し(レンディング)・流動性提供(LP)といった基本的なDeFi操作をエージェントが直接呼び出せる
同時期に発表されたagnt8x(EightX Labs)のプラットフォームは、AIエージェントを採用・オンボーディング・運用・収益化するためのマーケットプレイスで、エージェントに「Passport(監査証跡)」を発行し、複数エージェントの協調作業を管理する「コンダクター」機能を持つ。Apache 2.0ライセンスで公開されており、企業がエージェントを社内組み込みやすい設計になっている。
実務上の示唆
- MetaMask Agent Walletは「AIが資産を動かす」という新しいリスクカテゴリを生む。導入を検討する場合、セキュリティルール(上限額・ホワイトリスト)の設計が成否を決める最重要要素になる
- DeFiの自律運用が可能になると、裁定取引(価格差を使った利益獲得)や流動性管理の自動化が個人・中小企業でも現実的になる。一方でスマートコントラクトのバグを突いた攻撃リスクも増大する
- agnt8xのような「エージェントのマーケットプレイス」が整備されると、AIエージェントを「採用する」感覚で業務に組み込む時代が来る。社内エージェントのガバナンス設計を今から考えておく意義がある
- 金融規制(特に日本の資金決済法や金融商品取引法)がAIによる自律取引をどう扱うかは未整備な部分が多い。法務確認なしに本番運用するのは現時点ではリスクが高い
まとめ
AnthropicのFable 5はコーディング・科学分野で既存モデルとの差を大きく広げ、「AIに任せる」判断の閾値をさらに下げた。GoogleはGemini 3.5 FlashをSearchの心臓部に据え、SparkというパーソナルエージェントでAIを生活のインフラに組み込もうとしている。そしてMetaMaskはAIに財布を手渡した。
今週のニュースが示すのは、AIが「使うツール」から「動いているシステム」へと変わりつつある流れだ。各自のワークフロー・セキュリティ設計・法的ルールの見直しを、変化のスピードに合わせて進めておきたい。