Skip to content

【AIニュース】Fable 5がグローバル復活・カリフォルニア州がAnthropicと提携・DeepMindがエージェント統制の設計図を公開

18日間停止していたClaude Fable 5がグローバルに復活し、Anthropicは大手4社とジェイルブレイクの重大度を測る共通基準づくりを開始した。カリフォルニア州はAnthropicと提携し全州機関にClaudeを導入、Google DeepMindはAIエージェントを「内部の脅威」として扱う統制の設計図を公開した。

今週のAIニュースは、派手な新モデル発表よりも「AIをどう安全に、どう実際の現場で使うか」という地味だが重要なテーマに集中した。裏側で止まっていたモデルが戻り、州政府がAIを本格導入し、研究機関はAIエージェント(人間の代わりに一連の作業を自律的にこなすAI)を疑いの目で監視する仕組みを設計し始めた。派手さの裏で、AI業界は「実装のフェーズ」に入りつつある。

Claude Fable 5がグローバル復活——4社共同でジェイルブレイクの「重大度」を測る基準づくりへ

Anthropicの最上位モデル「Claude Fable 5」が7月1日、18日間の停止を経てグローバルに復活した。停止のきっかけは、Amazonの研究者が発見したジェイルブレイク(AIの安全対策を回避して不正な出力を引き出す攻撃手法)だった。Anthropicは今回、この攻撃を99%以上ブロックする新しいセキュリティ分類器を投入した。ただし、この対策は通常のコーディング作業にも一部影響が出るというトレードオフを伴う。

さらに注目すべきは、AnthropicがAmazon・Microsoft・Google・Glasswingパートナー各社と共同で、「ジェイルブレイクの重大度」を測る共通の物差しづくりに乗り出したことだ。これまでは同じような攻撃手法が見つかっても、各社・各国政府がバラバラの基準で「どのくらい危険か」を判断していた。新しい枠組みは、①既存の手段に比べてどれだけ新しい能力を与えるか、②何種類の攻撃を可能にするか、③悪用のしやすさ、④発見されやすさ、の4軸で評価する。公開時期はまだ未定で、複数社の評価が食い違った場合にどう調整するかも決まっていない。(参照: Anthropic公式発表Anthropic Redeploys Fable 5 With Cross-Lab Jailbreak Rubric

実務上の示唆

  • Fable 5を業務利用していた場合、新しい分類器の影響でコーディング用途の出力が一部厳しくなる可能性があるため、既存ワークフローの出力を再確認する
  • 「ジェイルブレイク重大度」という共通言語ができつつあることは、今後のAI規制議論が技術的な基準に基づくようになる兆候として注視する価値がある
  • 自社でAIの安全性ポリシーを作る際も、影響範囲・攻撃の種類・悪用の容易さ・発見可能性という4軸の考え方は流用できる

カリフォルニア州がAnthropicと提携——全67部門・2,800人規模から州全体へ

カリフォルニア州のニューサム知事は6月29日、Anthropicとの提携を発表した。米国の州政府によるAI導入としては過去最大規模だ。州の新しい調達窓口「SITeS(州共通ITサービスポータル)」を通じて、参加を希望する市や郡を含むすべての州機関がClaudeを通常価格の50%引きで利用できるようになる。

すでに67部門・2,800人以上の州職員が、Claudeを使って作られた業務支援ツール「Poppy」を試験導入済みで、7月には州全体への展開が予定されている。Poppyは「よく使う業務についてあらかじめ用意された質問パターンで答えを引き出す」設計になっており、職員が使い方に迷わないよう工夫されている点が特徴だ。Anthropicは値引きに加えて、無償の職員研修と技術支援も提供する。(参照: カリフォルニア州知事府の発表

実務上の示唆

  • 「全職員向けの汎用チャットボット」ではなく「業務ごとに絞ったテンプレート化されたツール」という設計思想は、社内AI導入の参考になる
  • 大規模組織へのAI導入では、値引きよりも研修とサポート体制の有無が定着率を左右しやすい
  • 政府機関での大規模採用は、AIベンダーにとって信頼性の実績づくりになる。今後同様の自治体・企業契約が増える可能性がある

Google DeepMind、AIエージェントを「侵入されうる社員」として扱う統制の設計図を公開

Google DeepMindは6月18日、自社内システムをAIエージェントの誤動作や悪用から守るための「AI Control Roadmap(AI統制の設計図)」を公開した。特徴的なのは、AIモデルそのものの性能を上げて安全にするのではなく、権限を持つ社員が不正を働く可能性を前提に対策を組む「内部脅威対策」の発想を、AIエージェントにそのまま当てはめている点だ。

具体的には、信頼できる別のAIに常時エージェントの行動や思考過程を監視させ、危険な行動が実行される前に止める仕組みを提案している。教習所の「補助ブレーキ付き車両」に例えられる方式で、リスクの低い操作は事後チェック、危険度の高い操作はリアルタイムで止める、という段階的な監視レベルを設ける。DeepMindは実際に100万件のコーディングエージェントの行動記録を分析し、専用の監視システムを自社のエージェント「Gemini Spark」に導入済みだ。分析の結果、警告が出た事例の大半は悪意ある行動ではなく、エージェントの勘違いや「やりすぎ」によるものだったという。(参照: Google DeepMind公式ブログ

実務上の示唆

  • 自社でAIエージェントを業務に組み込む際は、「性能を上げれば安全になる」ではなく「暴走を前提に監視・停止の仕組みを作る」という発想の転換が必要
  • リスクの大きさに応じて監視の厳しさを変える段階的アプローチは、コストと安全性のバランスを取る現実的な設計として参考になる
  • 現時点でのAIの誤りの多くは「勘違い」であり「悪意」ではないという知見は、過剰な規制よりも丁寧な監視設計を優先すべき根拠になる

DeepSeek V4が7月正式リリースへ——ピーク時は料金2倍の「電力型」課金を導入

中国DeepSeekは、4月にプレビュー公開していた大型オープンモデル「DeepSeek V4」シリーズを、7月中旬に正式リリースすると発表した。V4シリーズは非常に規模が大きく、上位モデルの「V4-Pro」は1.6兆パラメータ(実際に計算に使われるのはそのうち490億)、軽量版の「V4-Flash」は2,840億パラメータ構成で、いずれもMIT ライセンス(商用利用や改変がほぼ自由な軽い利用許諾)で公開されている。

今回新たに導入されるのが、電力会社のような「ピーク時課金」だ。北京時間の9〜12時と14〜18時の利用が集中する時間帯は、入力・出力とも料金が通常の2倍になる。米国の開発者にとっては、この時間帯がちょうど深夜〜早朝に当たるため、実質的に影響を受けにくいという地理的なねじれも生じている。これまで中国のAI企業同士は値下げ競争を続けてきたが、DeepSeekは今回初めて「需要が高い時間は高く、低い時間は安く」という需要連動型の価格設定に踏み出した。(参照: DeepSeek V4 set to launch in mid-July with peak hour pricingTechNode

実務上の示唆

  • API利用のコストを抑えたい場合は、処理を北京時間の閑散時間帯にずらすことで実質的に半額で使える可能性がある
  • オープンウェイトモデルでも大手クラウドと同様の「需要連動課金」が広がれば、コスト設計の前提が変わる。API契約は定期的に見直す価値がある
  • 値下げ競争一辺倒だった中国AI市場の潮目が変わりつつあり、今後は他社も類似の課金体系を追随する可能性がある

まとめ

今週は新モデルの派手な発表よりも、「AIをどう安全に運用し、どう実際の組織に定着させるか」という地味な実装フェーズの動きが目立った。Anthropicは業界横断でジェイルブレイクの評価基準づくりを始め、DeepMindはエージェントを「信頼せず監視する」設計に舵を切った。一方でカリフォルニア州の大規模導入やDeepSeekの新課金モデルは、AIがすでに日常のインフラとして扱われ始めていることを示している。派手な性能競争の裏で進む「ガバナンスと定着」の動きこそ、次の四半期を占う本当の焦点になりそうだ。