OpenAIは、サイバーセキュリティ業務に特化したモデル「GPT-5.5-Cyber」へのアクセス権を欧州連合(EU)に提供しました。この動きは、単なるアクセス提供という事実以上に、アーキテクチャの微調整の詳細や評価手法において、Anthropicのより慎重な戦略とは一線を画す同社のアプローチが顕著に表れている点で注目に値します。
このモデルは、総パラメータ数約1.2兆の混合エキスパート(MoE)方式をベースに構築されており、各1,200億パラメータを持つ12のアクティブなエキスパートが個別の脅威クラスを担当しています。ファインチューニングは、MITRE ATT&CKフレームワークに基づいた合成攻撃データセットを用いて行われ、専門の分析エージェントからのフィードバックによって強化されたRLHF(人間フィードバックによる強化学習)の派生手法が採用されました。その結果、MITREのテクニック検出ベンチマークにおいて、ゼロショットで94.7%の精度を達成しており、これは前バージョンのGPT-5を11ポイント上回る数値です。
しかし、その評価手法には疑問の声も上がっています。テストが完全に独立した公開データセットではなく、主にOpenAI内部のデータセットで行われたためです。各ファインチューニング要素がどの程度寄与しているかを示すアブレーション研究のデータも公開されていません。そのため、性能向上がサイバー分野への特化によるものなのか、あるいは単にモデル全体のスケールアップによるものなのかを判断することが困難となっています。
2026年4月に発表されたAnthropicのモデル「Mythos」に関する並行した取り組みと比較すると、両社のアプローチは根本的に異なります。Anthropicが多層的な憲法AIによる検証を重視し、失敗モード(failure modes)の詳細なレポートを公表しているのに対し、OpenAIは集計されたメトリクスの提示に留まっています。こうした相違は、重要インフラ向けのモデルにおける制限事項をどのように開示すべきかという、両社の見解の違いを反映しています。
EU内でのGPT-5.5-Cyberの展開により、欧州の規制当局や重要インフラの運営者は、未加工のデータを地域外に送信することなく、現実のシナリオでモデルをテストすることが可能になります。これはフロンティアモデルへの管理されたアクセスの先例となり、将来のAIの国境を越えた利用に関する合意に影響を与える可能性があります。
その一方で、サイバーコンポーネントを標的とした適応型の攻撃に対して、このモデルがどの程度の耐性を持っているかは依然として不透明です。今後、専門家コミュニティはプロンプト・インジェクション耐性の独立した検証や、公開データセットでの結果の再現に注力することになるでしょう。
結論として、GPT-5.5-Cyberへのアクセスは、EUにとって特化型モデルの評価基準の策定を加速させるツールとなりますが、同時に独立した検証への並行した投資が不可欠であると言えます。




