<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>強化学習 on hagizo.io</title><link>https://ha.gizwoo.com/tags/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/</link><description>Recent content in 強化学習 on hagizo.io</description><generator>Hugo -- gohugo.io</generator><language>en</language><lastBuildDate>Wed, 20 May 2026 20:31:12 +0900</lastBuildDate><atom:link href="https://ha.gizwoo.com/tags/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/index.xml" rel="self" type="application/rss+xml"/><item><title>【AIニュース】AIが自律的にゼロデイを発見する時代とLLM業界再編の加速</title><link>https://ha.gizwoo.com/claude-mythos-llm-fjprmtvknl/</link><pubDate>Thu, 14 May 2026 09:00:00 +0900</pubDate><guid>https://ha.gizwoo.com/claude-mythos-llm-fjprmtvknl/</guid><description>&lt;p&gt;2026年5月第2週は、AIが自らソフトウェアの未知の脆弱性を発見し、業界トップ企業が合従連衡を加速させ、推論インフラの効率化で「より少ないGPUでより多くを動かす」競争が本格化するという、フロンティアモデルの能力が既存の前提を次々と覆す出来事が相次いだ。安全性・市場構造・インフラ効率・学習コストという四つの軸すべてで同時に変化が起きたことは、AIがいよいよ産業インフラの中枢に組み込まれていく段階に入ったことを示唆している。&lt;/p&gt;
&lt;h2 id="claude-mythosがaiセキュリティの前提を塗り替えた"&gt;Claude MythosがAIセキュリティの前提を塗り替えた
&lt;/h2&gt;&lt;p&gt;Anthropicは2026年4月7日、セキュリティ研究特化モデル&lt;a class="link" href="https://red.anthropic.com/2026/mythos-preview/" target="_blank" rel="noopener"
 &gt;Claude Mythos Preview&lt;/a&gt;を公開し、AI業界に衝撃を与えた。同モデルはあらゆる主要OS・ブラウザを対象に数千件のゼロデイ脆弱性（開発者が把握していない未公開の欠陥）を自律的に発見し、初回試行での再現・実動エクスプロイト（脆弱性を突く攻撃コード）生成率が83%超に達したことが&lt;a class="link" href="https://thehackernews.com/2026/04/anthropics-claude-mythos-finds.html" target="_blank" rel="noopener"
 &gt;The Hacker News&lt;/a&gt;の報道で明らかになった。&lt;/p&gt;
&lt;p&gt;Anthropicはこれに合わせて&lt;a class="link" href="https://www.anthropic.com/glasswing" target="_blank" rel="noopener"
 &gt;Project Glasswing&lt;/a&gt;を立ち上げ、Amazon Web Services、Apple、Google、Microsoft、NVIDIAら大手企業や政府系組織と協力しながら、発見された脆弱性の修正を進めている。悪用リスクを考慮し、同モデルは一般公開されていない。&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://www.techtarget.com/searchenterpriseai/news/366642478/Claude-Mythos-Preview-and-the-new-rules-of-cybersecurity" target="_blank" rel="noopener"
 &gt;TechTarget&lt;/a&gt;はこれを「脅威の民主化ではなく、攻撃の高速化・高精度化」と評し、防御側の前提を根底から見直す必要があると警告している。AIが「知っている脆弱性を悪用する」段階から「知らない脆弱性を自ら探して悪用する」段階へと移行したことで、パッチ管理や侵入検知の時間軸が根本的に圧縮される。&lt;/p&gt;
&lt;h3 id="実務上の示唆"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;脆弱性スキャンのサイクルを週次から日次・時間単位へ短縮することが現実的な要件になりつつある&lt;/li&gt;
&lt;li&gt;パッチ管理プロセスの自動化投資の優先度を引き上げ、ゼロデイへの対応速度を組織として高める必要がある&lt;/li&gt;
&lt;li&gt;セキュリティベンダーとの契約評価時に「AI支援検知・修正」の有無が主要な選定軸となる&lt;/li&gt;
&lt;li&gt;内部セキュリティチームもAIツールを積極活用し、攻撃者との非対称ギャップを埋めることが急務&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="gpt-55がデフォルトへ移行cohereとaleph-alphaが統合"&gt;GPT-5.5がデフォルトへ移行、CohereとAleph Alphaが統合
&lt;/h2&gt;&lt;p&gt;5月5日、OpenAIは&lt;a class="link" href="https://openai.com/index/introducing-gpt-5-5/" target="_blank" rel="noopener"
 &gt;GPT-5.5 Instant&lt;/a&gt;をChatGPT全ティアの新デフォルトモデルとして展開した。医療・法務・金融などリスクの高いプロンプトにおける幻覚（ハルシネーション）件数を52.5%削減し、平均レスポンス長も約30%短縮したことが特徴だ。APIユーザーにとってはトークンコスト削減に直結する変更でもある。また5月7日には、セキュリティ研究向けに調整したGPT-5.5-Cyberを限定プレビューとして&lt;a class="link" href="https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/" target="_blank" rel="noopener"
 &gt;TechCrunch&lt;/a&gt;が報じた。&lt;/p&gt;
&lt;p&gt;一方、企業向けAIプロバイダーのCohereは4月25日、ドイツのAleph Alphaとの統合を発表した。合算評価額は約2.9兆円（200億ドル）に達し、2026年最大の横断的AI企業統合となった。&lt;a class="link" href="https://techcrunch.com/2026/04/25/why-cohere-is-merging-with-aleph-alpha/" target="_blank" rel="noopener"
 &gt;TechCrunch&lt;/a&gt;によると、CohereのエンタープライズAIインフラとAleph Alphaの欧州データ主権・コンプライアンス体制を組み合わせることで、EU AI Act対応を求める欧州市場での競争力を高める狙いがある。出資者にはSchwarzグループ（Lidl・Kauflandの親会社）が約870億円（6億ドル）を投じており、ソブリンAI（国家・地域固有のAI基盤）という概念がビジネスモデルとして成立し始めていることを示す事例でもある。&lt;/p&gt;
&lt;h3 id="実務上の示唆-1"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;GPT-5.5への切り替えは段階的ロールアウトのため、APIバージョン固定の設定と出力品質の再評価が必要&lt;/li&gt;
&lt;li&gt;Cohere-Aleph Alpha統合はEUデータ主権規制への対応をサービス選定の主軸にする動きを加速させる&lt;/li&gt;
&lt;li&gt;企業のAI調達戦略において「データがどの国のインフラで処理されるか」は必須チェック項目へと昇格しつつある&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="cloudflareが推論インフラの設計思想を刷新"&gt;Cloudflareが推論インフラの設計思想を刷新
&lt;/h2&gt;&lt;p&gt;Cloudflareは独自の推論エンジン&lt;a class="link" href="https://blog.cloudflare.com/high-performance-llms/" target="_blank" rel="noopener"
 &gt;Infire&lt;/a&gt;を開発・公開した。Rustで実装されたInfireは、LLM処理を「入力読み込みフェーズ（プリフィル）」と「出力生成フェーズ（デコード）」に分離し、それぞれ最適化されたハードウェアで実行する「disaggregated prefill/decode」アーキテクチャを採用している。プリフィルはコンピュート律速、デコードはメモリ律速という異なる性質を持つ二段階を分離することで、従来よりも少ないGPU数で多くのリクエストを処理できる。Pipeline並列・テンソル並列・エキスパート並列（いずれも大型モデルを複数のGPUに分割して動かす手法）の各モードに対応し、Llama 4 ScoutをH200 GPU 2枚で動作させることに成功、起動時間も20秒以下を実現した。&lt;/p&gt;
&lt;p&gt;さらに、モデル重みを最大22%圧縮しつつ精度を維持する独自圧縮技術&lt;a class="link" href="https://blog.cloudflare.com/unweight-tensor-compression/" target="_blank" rel="noopener"
 &gt;Unweight&lt;/a&gt;も同時公開した。&lt;a class="link" href="https://www.infoq.com/news/2026/05/cloudflare-llm-infrastructure/" target="_blank" rel="noopener"
 &gt;InfoQ&lt;/a&gt;はこれを「LLMをネットワークエッジに実装する上での設計哲学の転換点」と評している。クラウド集中型ではなくエッジ分散型での大規模LLM推論という方向性が、コスト・レイテンシの両面で現実的な選択肢となりつつある。&lt;/p&gt;
&lt;h3 id="実務上の示唆-2"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;ローカル・エッジ推論を検討する際、disaggregated prefillの考え方をアーキテクチャ選定の基準に含めることを推奨&lt;/li&gt;
&lt;li&gt;モデル圧縮（量子化・重み圧縮）の評価はインフラコスト削減に直結するため優先的に着手したい&lt;/li&gt;
&lt;li&gt;Cloudflare Workers AIを使ったエッジ推論実装は、コストとレイテンシの両面で再評価する価値がある&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="metaとnyuがrl学習のオンポリシー神話を覆す"&gt;MetaとNYUがRL学習の「オンポリシー神話」を覆す
&lt;/h2&gt;&lt;p&gt;Meta FAIRとNYUクーラント研究所の共同研究チームは、LLMの後処理（Post-Training）における強化学習に「経験リプレイ（Experience Replay）」を導入することで計算コストを最大40%削減できることを示した論文を&lt;a class="link" href="https://arxiv.org/abs/2604.08706" target="_blank" rel="noopener"
 &gt;arXiv&lt;/a&gt;に公開した。&lt;/p&gt;
&lt;p&gt;従来、LLMのRLトレーニングには「オンポリシー（常に最新モデルで生成した新鮮なデータだけを学習に使う方式）」が必須とされてきた。同研究はこの前提を理論と実験の両面から覆し、適切なリプレイバッファ設計によって過去データを再利用しながら同等以上の性能を達成できることを証明した。バッファ設計の最適化を「データの鮮度によるバリアンス」「サンプル多様性」「生成コスト」の三者トレードオフとして定式化し、推論コストが高まるほどリプレイ戦略が有利になるという理論的な境界値も導出している。Qwen2.5-7BをMATHベンチマークで評価した実験では、同精度で推論コンピュートを約40%節約することに成功している。&lt;/p&gt;
&lt;h3 id="実務上の示唆-3"&gt;実務上の示唆
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;自社でLLMのファインチューニングやRLHFを実施している組織は、リプレイバッファ導入で計算資源を大幅に節約できる可能性がある&lt;/li&gt;
&lt;li&gt;「オンポリシーでなければならない」という従来の制約を見直し、より効率的なトレーニングパイプラインの設計を検討する価値がある&lt;/li&gt;
&lt;li&gt;7B程度の小規模モデルでも適切なRL設計次第で高い精度が実現できる実例として、スモールモデル活用戦略の見直しにも参照できる&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="まとめ"&gt;まとめ
&lt;/h2&gt;&lt;p&gt;Claude MythosによるAIセキュリティの再定義、GPT-5.5の全面展開とCohere-Aleph Alphaの業界再編、Cloudflareの推論インフラ革新、そしてRLトレーニングの効率化研究——2026年5月第2週は、AIの「使われ方」と「作られ方」の両面でパラダイムシフトが重なった週だった。特にClaude Mythosが示した「AIが自律的に脆弱性を発見する」能力の実証は、セキュリティの前提を根底から変えるインパクトを持つ。次の焦点は、これらの技術的飛躍が企業・社会のガバナンスにどう組み込まれ、誰がそのルールを設計するかに移りつつある。&lt;/p&gt;</description></item></channel></rss>