DeepSeek on hagizo.io

【AIニュース】AppleのSiri大刷新、EU AI法施行直前の動き、オープンソースLLM競争の最前線

Mon, 01 Jun 2026 00:00:00 +0900

AI業界は今週、大きな節目を同時に迎えている。Appleが6月8日のWWDC（世界開発者会議）でSiriの抜本改革を発表する構えを見せ、EUは8月に迫るAI法施行に向けた規則整備を急ピッチで進めている。一方でオープンソースの世界では中国発のモデルが独自の進化を続け、商用モデルとの差を急速に縮めている。

Apple WWDC 2026——Siri 2.0とAI開放の号砲

Appleは6月8日、カリフォルニア州クパチーノでWWDC（Worldwide Developers Conference、世界開発者会議）の基調講演を行う予定だ。業界関係者の間で最も注目されているのが、長年「使いにくい」と批判されてきたSiriの全面刷新である。

新しいSiriはiOS 27に搭載され、独立したチャットアプリとして生まれ変わる。ダイナミックアイランド（画面上部のカプセル型の通知領域）に常駐し、画面に表示されているコンテンツを把握しながら複数のアプリをまたいで作業を実行できるようになる。たとえば「このメールの件名をカレンダーに登録して、添付ファイルの要約をメモに保存して」といった複合的な指示を自然な会話で完結させることが可能になる見込みだ。

さらに注目すべきは「AIモデルの選択肢」だ。iOS 27では設定アプリから、Writing Tools（文章補助）やImage Playground（画像生成）などApple Intelligence機能に使うAIサービスをClaude・Gemini・ChatGPTなど第三者のモデルに切り替えられる「Extensions」システムが導入される予定だ。これまでOpenAIとのChatGPT連携のみに留まっていたApple Intelligenceが、複数の外部AIプラットフォームに対してオープンになる転換点といえる。

実務上の示唆

iOS 27のSiriに第三者モデルが入ることで、企業内でiPhoneとClaudeやGeminiを組み合わせたワークフローが公式サポートされる可能性がある。モバイル端末のAI利用ポリシーを見直す機会として捉えておきたい。
Appleはオンデバイス処理（ユーザーの手元のデバイスでAIを動かすこと）を重視しているため、プライバシー面の訴求がこれまで以上に競争軸になる。クラウド依存型のAIサービスとの比較評価が必要になる。
開発者向けには「Core AI framework」として事前学習済みモデルとAPIが提供される見通し。Appleエコシステム向けアプリへのAI組み込みコストが下がる可能性がある。

EU AI法——施行まで2か月、そして規則の簡素化

欧州のAI規制の話題も6月に大きく動いた。EU AI法（EU AI Act）は2024年8月に発効し、2年間の移行期間を経て2026年8月2日に主要条項が一斉施行される予定だ。企業にとっては「高リスクAIシステム」への規制対応や、AIが生成したコンテンツへの透明性表示義務など、実務上の変更が求められる時期が目前に迫っていた。

ところが2026年5月7日、欧州議会とEU理事会はいわゆる「デジタルオムニバス（Digital Omnibus）」に関する暫定合意に達し、いくつかの期限が延期されることになった。具体的には、高リスクAIシステム（採用・医療・教育など重大な意思決定に使われるAI）についての義務が2026年8月から2027年12月へと16か月延期された。AI生成コンテンツへの透明性表示義務も4か月延びて2026年12月になる。

一方で8月2日に変わらず施行される条項もある。一般目的AI（GPT・Claudeのような汎用モデル）に対する透明性・著作権対応の要件、そして国家レベルの監督機関による執行権限の付与などだ。違反した場合のペナルティは最大1500万ユーロ（約24億円）または全世界売上の3%と定められている。

実務上の示唆

「高リスクAI」の期限が延びたからといって対応を後回しにするのは危険だ。2027年12月の新期限は18か月後と近く、早めのギャップ分析（現状と規制要件の差の洗い出し）が重要になる。
8月2日から施行される一般目的AI向け要件は、ChatGPTやClaude APIを業務利用している企業にも影響する。生成AIの出力をどう開示するかのポリシーを今から整備しておくことが求められる。
EU域外の企業（日本企業を含む）もEU市場に製品を提供していれば対象になる。Holland & Knightによれば、米国企業も同様の対応が必要だ。

オープンソースLLMの激戦——DeepSeek V4対Qwen 3.6

今年前半のオープンソースLLM（重みが公開された大規模言語モデル）の競争は、中国発の2モデルが主役に躍り出た形だ。DeepSeek V4 ProとQwen 3.6は、ともにMay 2026のベンチマークでOpenAIやAnthropicの商用モデルに肉薄する成績を示している。

コーディング能力を測る「SWE-Bench Verified」（実際のGitHubイシューをどれだけ自力で解決できるかを測定するベンチマーク）では、DeepSeek V4 Proが80.6%を記録しオープンウェイトモデルのトップに立った。Qwen 3.6 Plusも78.8%と僅差で続く。数学的推論ではQwen 3.6-27Bが94.1%と強みを発揮し、DeepSeek V4 Flashの88.1%を上回った。

コスト面でもDeepSeek V4 Flashは1Mトークンあたり入力$0.14・出力$0.28という破格の安さを実現している。これはMoE（Mixture of Experts、専門家混合）アーキテクチャと呼ばれる設計の恩恵で、モデルの総パラメータ数は巨大でも推論時に実際に動くのは全体の一部だけという仕組みだ。電力・計算コストが抑えられるため、クラウドAPIの価格が劇的に下がる。

メモリ（文脈として読み込めるテキストの長さ）ではDeepSeek V4 Flashが1Mトークン（文庫本約2000冊分に相当）とQwen 3.6 Maxの256Kを大幅に上回る。Llama 4はさらに10Mトークンという超長文脈（小説約2万冊分）を誇るが、汎用ベンチマークでは上記2モデルに軍配が上がる。

実務上の示唆

コーディング・レビュー・テスト生成といった開発補助用途なら、DeepSeek V4 ProかQwen 3.6 Plusはコストパフォーマンスが極めて高い。プロプライエタリモデルの利用コストと比較検討する価値がある。
自社サーバーやプライベートクラウドでのセルフホスト（自前での運用）が可能なため、データを外部に送りたくない用途でも選択肢になる。ただしGPUリソースの確保と運用コストは別途考慮が必要だ。
Qwen 3.6はアリババ傘下、DeepSeekは中国の民間企業発でそれぞれApache-2.0など商用利用可能なライセンスを提供しているが、地政学的リスクやライセンス条件の細部は自社の法務・調達ポリシーに照らして確認することを推奨する。

まとめ

AppleのWWDC 2026はSiriを「チャットボット型AIアシスタント」に転換する分水嶺になる可能性が高く、iOSエコシステムのAI活用が一気に加速しそうだ。EU AI法では一部期限延期という朗報がある一方、8月の施行は確実に進んでおり準備を急ぐ必要がある。そしてオープンソースLLMは商用モデルとのベンチマーク差を急速に縮めており、AI活用の「コスト構造」そのものが変わりつつある。この3つの流れが重なる2026年夏は、AI戦略の見直しにとって重要な時期といえる。

【AIニュース】推論コストの激変とインフラ成熟——エージェント時代の“地盤”が固まる

Mon, 11 May 2026 09:00:00 +0900

モデルの性能差が縮まるにつれ、競争の重心は「どれだけ賢いか」から「どこで、いくらで、どう動かすか」へ移っています。今週は、DeepSeek V4がオープンソースで性能と価格の常識を塗り替え、CloudflareがエージェントのためのAIインフラを本格整備し、さらにAIが数学研究に“共同研究者”として参加する事例が出てきた週でした。個別モデルの優劣より、インフラと経済性の設計がプロダクトの持続性を左右し始めています。

DeepSeek V4：オープンソースが“20倍のコスト差”を現実にした

DeepSeek V4は2026年4月24日にリリースされ、MITライセンスの2バリアント（V4-Pro・V4-Flash）として公開されました（DeepSeek API Docs）。100万トークンのコンテキストウィンドウを持ち、V4-ProはSWE-benchコーディングベンチマークでClaude Opus 4.6とわずか0.2ポイント差の性能です（DEV Community）。

注目すべきはコストです。V4-Proは100万トークンあたり$3.48、Claude Opus 4.6は$75——約21倍の価格差がありながら、コーディングタスクではほぼ同等の性能を発揮します（Medium）。エージェント開発の現場では、すでに「トラフィックの70%をDeepSeek V4-Flash、25%をClaude Sonnet 4.6、5%をOpus 4.7」という分割運用が報告されています（BuildFastWithAI）。

実務上の示唆：コストは「モデル選定」ではなく「ルーティング設計」で決まる

単一のプレミアムモデルをすべてのリクエストに使う時代は終わりつつあります。タスクの難易度・リスク・レイテンシ要件に応じてモデルをルーティングする設計が、コストと品質のトレードオフを最適化します。
オープンウェイトモデルの採用では「誰がホストするか」「SLOをどう担保するか」が新たな設計項目になります。MITライセンスはコードの自由度を与えますが、インフラコスト・セキュリティ・バージョン管理は自社で抱える必要があります。
コーディング以外のタスク（長文分析、推論、多言語対応）では性能差が広がる場合があります。ベンチマークスコアではなく、自社のタスク分布での評価が、ルーティング戦略の基盤になります。

CloudflareがAgents Weekでエージェント専用インフラを整備

Cloudflareは「Agents Week 2026」でエージェント運用を前提としたインフラ群を一斉公開しました（Cloudflare Blog）。中核は独自の推論エンジンInfireで、Rustで実装されており、複数GPUをまたいでLLMを効率的に実行します（Cloudflare Blog）。

InfireはプリフィルとデコードをGPUで分離する「分離プリフィル（disaggregated prefill）」を採用し、各ステージを独立してスケールできる設計です（InfoQ）。この最適化により、Llama 4 ScoutをH200 GPU 2枚で、Kimi K2.5をH100 GPU 8枚で動作させながら、KVキャッシュのためのメモリを確保できています（InfoQ）。330都市のデータセンター網を活かし、ユーザーと推論エンドポイントの双方に近い位置でAI Gatewayを機能させる設計です（Cloudflare Blog）。

実務上の示唆：エッジ推論は「レイテンシ」より「状態管理」が先の課題

エージェントのユースケースでは、推論の低レイテンシと同等かそれ以上に、ツール呼び出し結果や会話状態の管理が設計の要になります。インフラを選ぶ際は、「速い」だけでなく「状態をどこに、どう持つか」の仕様を確認するべきです。
分離プリフィル設計はスループット効率を高める一方、バースト時の挙動やコールドスタートのレイテンシに特性が出やすい構造です。SLO設計では、平均レイテンシだけでなくP99・コールドスタート時間を要件に含めることが重要です。
CloudflareのようなグローバルCDN事業者がAI推論を取り込む流れは、「モデルは外、インフラは既存CDNで」という調達モデルを現実的にします。将来の乗り換えコストと、ベンダーロックインのリスクを今の時点で整理しておく価値があります。

AIが数学の“共同研究者”に：AI Co-Mathematician

arXivに投稿された「AI Co-Mathematician」（arXiv:2605.06651）は、フロンティアモデルを補完する位置付けで、ステートフルなアーキテクチャを持つエージェント型AIを数学研究に応用した取り組みです。AlphaProofやAletheiaのような自律推論器を動的に呼び出し、長時間かかる証明探索や仮説生成を支援します。

単一の問題を解く「ツール」ではなく、研究者とともに仮説→検証→修正のサイクルを回す「共同研究者」として設計されている点が、従来の数学AIとの違いです。

実務上の示唆：専門領域エージェントは「正確さ」より「検証可能性」が鍵

数学のような検証が明確な領域でエージェントが力を発揮できるのは、出力の正否を人間が（あるいはシステムが）確認できるからです。あいまいな領域にエージェントを展開する際は、何をもって成功とするかを先に定義することが、エラーの見逃しを防ぎます。
長時間タスク（証明探索、文献調査、シミュレーション）をエージェントに委ねるには、途中状態の保存・再開と、部分的な失敗からの回復設計が不可欠です。「最後まで動いたか」だけを評価する設計では、長時間タスクの品質管理ができません。

まとめ：地盤の整備が、次のエージェント競争を決める

DeepSeek V4のコスト破壊（DeepSeek）、CloudflareのエッジAIインフラ成熟（Cloudflare）、専門領域への浸透（arXiv:2605.06651）——これらは、エージェントの「走る地盤」が急速に整備されていることを示しています。モデルの賢さが前提になりつつある今、インフラコスト・ルーティング設計・状態管理・検証可能性の整備が、プロダクトの持続的な競争力を決める局面に入っています。

DeepSeek V4登場で『AIは高い』が揺らぐ：GPT-5.4の約1/50出力コストが示す価格破壊

Tue, 28 Apr 2026 19:25:00 +0900

DeepSeek V4 Previewは、生成AIの競争軸を「最高性能」だけでなく「どれだけ安く大規模に使えるか」へ押し戻す発表になりました。特にDeepSeek-V4-Flashの公式価格は、GPT-5.4と比較したときに出力トークンで約53.6倍の差があり、エージェントやコード生成のような出力量の多い用途では無視できないインパクトがあります DeepSeek API Docs LLM Stats。本記事では、DeepSeek V4の何が価格破壊なのか、そして「90%品質」という言い方をどう受け止めるべきかを整理します。

DeepSeek V4 Previewの要点

DeepSeekは2026年4月24日にDeepSeek-V4 Previewを公開し、DeepSeek-V4-ProとDeepSeek-V4-Flashの2系統を案内しました DeepSeek API Docs。V4-Proは1.6T総パラメータ、49Bアクティブパラメータのモデルで、DeepSeekは「世界トップ級のクローズドモデルに匹敵する性能」と説明しています DeepSeek API Docs。V4-Flashは284B総パラメータ、13Bアクティブパラメータの軽量版で、単純なエージェントタスクではV4-Proに近い性能を示すとされています DeepSeek API Docs。

大きいのは、両モデルが1Mコンテキストと最大384K出力を公式に掲げている点です DeepSeek API Docs。長文ドキュメント、巨大コードベース、複数ファイルを扱うエージェントでは、短いコンテキストに分割して呼び出すより、1回の呼び出しで広い状態を保持できるほうが設計しやすくなります。

価格差が変える実装判断

DeepSeek公式価格では、V4-Flashは100万入力トークンが0.14ドル、100万出力トークンが0.28ドルです DeepSeek API Docs。OpenAIの公式価格ではGPT-5.4が100万入力トークン2.50ドル、100万出力トークン15.00ドルであり、単純比較では入力で17.9倍、出力で53.6倍の差になります OpenAI API Pricing LLM Stats。

この差は、チャットUIで数回質問するだけなら小さく見えるかもしれません。しかし、AIエージェントがコードを読み、計画を立て、修正案を書き、テスト結果を要約するようなワークフローでは、出力トークンが大量に発生します。つまり、DeepSeek V4の価格は「高性能モデルをどこにだけ使うか」ではなく、「安価なモデルを常時走らせ、難所だけ高性能モデルへルーティングする」設計を後押しします。

「90%品質」はどう見るべきか

表現としての「GPT-5.4の90%品質」は分かりやすいものの、公式に単一の品質指標として確認できる数字ではありません。FortuneはDeepSeekの技術レポートを引用し、V4がGPT-5.4やGemini 3.1 Proに「わずかに及ばない」とする一方、Claude Opus 4.6、GPT-5.4、Gemini 3.1 Proとの比較で有利なベンチマークも示したと報じています Fortune。したがって、実務では「90%品質」と断定するより、「一部のタスクで frontier model に近い性能を、はるかに低い単価で狙える」と見るほうが安全です。

特に注意したいのは、ベンチマーク上の近さと本番運用の安定性は同じではない点です。APIの稼働率、レート制限、データ取り扱い、法務リスク、サポート品質は、単価だけでは測れません。DeepSeek V4は魅力的な価格を提示しましたが、企業導入では性能検証だけでなく、ログ管理、データ保持、障害時の代替ルートまで含めた評価が必要です。

まとめ

DeepSeek V4は、「高品質なAIは高い」という前提を大きく揺さぶる発表です。公式価格ベースではV4-Flashの出力単価がGPT-5.4より約53.6倍安く、1Mコンテキストと384K出力も備えています DeepSeek API Docs LLM Stats。ただし、品質を単純に「90%」と断定するより、コストの低さを活かしてタスク分解、モデルルーティング、エージェント実行基盤を再設計するきっかけとして捉えるべきでしょう。