OpenAI 提供歐盟 GPT-5.5-Cyber 使用權:模型專業化技術分析及與 Anthropic 策略之差異

编辑者: Aleksandr Lytviak

OpenAI 提供歐盟 GPT-5.5-Cyber 使用權:模型專業化技術分析及與 Anthropic 策略之差異-1

OpenAI 已向歐盟提供專為網路安全設計的 GPT-5.5-Cyber 模型存取權。此次合作之所以引人注目,不僅在於模型本身的交付,更在於其架構改良細節與評估方法論,顯現出 OpenAI 與 Anthropic 謹慎策略截然不同的取向。

該模型採用混合專家(MoE)架構,總參數規模約達 1.2 兆,其中包含 12 個各具 1,200 億參數的活躍專家,分別負責處理不同類別的威脅。模型微調過程使用了基於 MITRE ATT&CK 框架的合成攻擊數據集,並結合專門分析代理回饋強化的 RLHF 變體技術。這使得模型在 MITRE 技術偵測基準測試中,展現出 94.7% 的零樣本準確率,較前一代 GPT-5 提升了 11 個百分點。

然而,目前的評估方法仍存有疑慮,因為測試主要在 OpenAI 內部數據集上進行,而非完全獨立的公開數據。目前尚缺乏消融研究數據來證實各項微調組件的具體貢獻。這讓外界難以判斷效能提升究竟是源於網路安全專業化訓練,還是僅僅受益於整體模型規模的擴張。

若與 Anthropic 於 2026 年 4 月發布的 Mythos 模型相比,兩者的研發路徑有著根本性的分歧。Anthropic 強調多層次的憲政 AI 審核並發布詳細的失效模式報告,而 OpenAI 則傾向於僅提供匯總後的數據指標。這種差異反映出兩家公司在處理關鍵基礎設施模型時,對於應如何揭露模型局限性持有不同見解。

GPT-5.5-Cyber 在歐盟的落地,讓當地監管機構與關鍵基礎設施營運商能在不將原始數據傳出境外的狀況下,於實際場景中測試模型。這為受控取用前沿模型建立了先例,極可能影響未來 AI 跨境使用的協議框架。

儘管如此,該模型對於針對網路安全組件所設計的適應性攻擊具有多強的抵抗力,目前仍是未知數。業界社群後續預計將聚焦於獨立驗證其對提示注入攻擊的防護能力,並嘗試在開放數據集上重現其效能測試結果。

核心結論在於,獲得 GPT-5.5-Cyber 的存取權為歐盟提供了加速制定專業模型評估標準的利器,但同時也凸顯了對獨立驗證技術進行平行投資的必要性。

9 浏览量

來源

  • EU confirms OpenAI offers access to cybersecurity model

  • OpenAI to give EU access to new cyber model

发现错误或不准确的地方吗?我们会尽快处理您的评论。