【AIニュース】幻覚削減・推論効率・オープンソース——3つの前線で加速するLLM進化

Thu, 28 May 2026 00:00:00 +0900

モデルの「賢さ」だけを追い求める時代から、信頼性・効率性・オープン性を同時に高める時代へ——今週のAI業界は、その転換を象徴する3つのニュースで動いた。

GPT-5.5 Instant：ChatGPTの新デフォルトが「嘘の少なさ」を武器に

5月5日、OpenAIはChatGPTのデフォルトモデルをGPT-5.5 Instantに更新した。前モデルのGPT-5.3 Instantと比べ、最も注目される改善は**ハルシネーション（AIが事実と異なる内容を自信満々に生成してしまう問題）**の大幅な抑制だ。

医療・法律・金融といった高い正確さが求められる分野のプロンプト評価で、誤った主張の数が52.5%削減されたとOpenAIは報告している。「ChatGPTが自信たっぷりに間違えた」という経験を持つ人は多いはずで、この数字はその不満への直接の回答だ。

機能面では、パーソナライズが強化された。有料プラン（PlusとPro）のユーザーは過去の会話・添付ファイル・接続したGmailの内容をもとに、文脈に沿った回答を受け取れるようになっている。無料プランへの展開も数週間以内を予定している。

応答スタイルも変わった。不要な絵文字が減り、長さが必要十分に絞られた。「AIっぽい」くどさを抑え、端的に情報を届けるスタイルへのシフトだ。

実務上の示唆

医療・法律・金融など誤情報のリスクが高いユースケースで、ChatGPTの再評価を検討する価値がある
長文でくどい回答が減るため、チャットボットや社内Q&Aツールとして実用性が上がる可能性がある
Gmail連携でパーソナライズを有効にする場合は、どのデータが参照されるかプライバシーポリシーを事前に確認しておくことが重要だ

TurboQuant：KVキャッシュを6倍圧縮し、LLMのメモリ問題を解消

LLMを使うとき、会話が長くなるほど「過去のやりとりを覚えておく作業メモリ」が膨らむ。これを**KVキャッシュ（キー・バリューキャッシュ）**と呼ぶ。長い文書を処理したり、長期の会話を継続したりするためには、このキャッシュが大量のGPUメモリを消費する。小説1冊分の文書をそのままモデルに渡そうとすると、普通のGPUでは足りなくなることもある。

Googleの研究チームがICLR 2026（4月25日、リオデジャネイロ開催）で発表したTurboQuantは、このKVキャッシュを1座標あたり3ビットまで圧縮しながら、精度損失をほぼゼロに抑える手法だ。

2段階のしくみで動く。

PolarQuant：数値の配列（ベクトル）を数学的な回転変換で圧縮しやすい形に整理する
QJL残差補正：圧縮で生じた誤差を1ビットの補正信号で打ち消す

この組み合わせで、従来手法と比べて6倍以上のメモリ削減と、NVIDIA H100 GPU上での最大8倍高速な処理を達成した。トレーニング不要で既存モデルにそのまま適用できる点が大きい。Gemma・Mistral・Llama-3.1-8Bで動作が確認されている。

オープンソース実装もGitHub（OnlyTerp/turboquant）に公開されており、llama.cppへの組み込みも議論が進んでいる。

実務上の示唆

契約書・論文・長い会話履歴など長いコンテキストを扱うアプリで、同じGPU予算でも処理できるデータ量が大幅に増える
追加トレーニング不要のため、既存のファインチューニング済みモデルにもそのまま適用できる
エッジ推論（ユーザーの近くの拠点でAIを動かすこと）やオンプレミス（自社サーバー）環境でのコスト削減に直結する

Tencent Hunyuan Hy3 preview：495ステップのエージェント処理を可能にする295Bモデル

5月下旬、テンセントがHunyuan Hy3 previewをオープンソースで公開した。パラメーター総数は**295B（約2950億）**と大規模だが、**MoE（Mixture-of-Experts、専門家の混合）設計を採用しているため、推論時に実際に動くパラメーターは21B（約210億）**のみだ。「入力の内容によって使う部分を切り替える」構造なので、70Bモデルより少ない計算資源で動かせる。最大コンテキスト長は256K——文庫本換算でおよそ100冊分の文章を一度に参照できる規模だ。

最大の特徴はエージェント性能だ。文書処理・データ分析・知識検索・MCP（モデルと外部ツールを接続する規格）ツールチェーンの操作を組み合わせた複雑なワークフローを最大495ステップ連続で実行できると報告されている。495ステップとは、数十分にわたる長い自律タスクをモデルが自力でこなせることを意味する。

実用面の改善も顕著だ。コード補完ツール「CodeBuddy」と業務支援ツール「WorkBuddy」での計測で、最初の返答が届くまでの時間（TTFT: Time To First Token）が54%短縮、処理全体の応答時間も47%短縮された。

Tencent CloudのTokenHubに加え、OpenRouterにも登録されており、公開から2週間は無料で試せる。

実務上の示唆

長期の自律エージェントが必要なワークフロー（データ収集・レポート自動生成・複数ツール連携）で有力な選択肢になる
MoEにより推論コストが低く抑えられ、OSSモデルの中でコスト効率の高い候補として評価できる
256Kコンテキストにより、企業の長い社内文書（マニュアル・規程集・過去の議事録）をそのまま渡して質問できる用途にも向いている

まとめ

今週の3つのニュースは、LLMの「次の課題」が何かを如実に示している。GPT-5.5 Instantは精度と信頼性、TurboQuantは推論メモリ効率、Hy3 previewはオープンな高性能エージェントという、それぞれ異なる問題への解答だ。これらが同時に前進することで、「正確で・速く・誰でも使える」AIへの扉が少しずつ開かれている。

推論最適化 on hagizo.io

【AIニュース】幻覚削減・推論効率・オープンソース——3つの前線で加速するLLM進化

GPT-5.5 Instant：ChatGPTの新デフォルトが「嘘の少なさ」を武器に

実務上の示唆

TurboQuant：KVキャッシュを6倍圧縮し、LLMのメモリ問題を解消

実務上の示唆

Tencent Hunyuan Hy3 preview：495ステップのエージェント処理を可能にする295Bモデル

実務上の示唆

まとめ