2026年5月5日,OpenAI 正式将大多数用户的默认模型切换为 GPT-5.5 Instant。这次升级不仅提升了生成速度,更优化了上下文处理方式,这一改进在公司的内部测试中表现尤为显著。
该模型延续了基于混合专家(MoE)的 Transformer 架构,但每个 token 的激活参数占比已提升至 28%。此举有效减少了长链推理任务中的错误。根据 OpenAI 提供的数据,在推理计算量保持不变的情况下,GPQA 基准测试的准确率从 53% 提升至 61%。
此次核心创新在于对注意力机制的改进:模型现在能根据前序 token 的置信度动态分配上下文权重。这种方法打破了以往在整个窗口内均匀分配权重的模式。因此,针对训练样本中罕见事实的生成“幻觉”概率显著降低。
发布说明中披露的评估方法涵盖了零样本(zero-shot)和少样本(few-shot)场景。然而,由于公司未公布测试集的完整数据,独立验证仍面临挑战。已有独立研究人员指出,在公开数据集上,实际复现的指标与官方宣称的数据存在偏差。
与 Anthropic 在 Claude 3.5 中采用的方案不同,OpenAI 选择侧重于增加激活参数,而非依赖基于宪法原则的额外训练后阶段。这种策略导致了不同的错误倾向:Anthropic 的模型往往倾向于拒绝回答,而 GPT-5.5 Instant 则更倾向于尝试作答,尽管有时会在细节上出现疏漏。
在实际应用层面,这意味着用户在处理技术文档或数据分析时,重新生成的频率将会有所下降。但对于需要严格事实校验的任务,官方仍建议配合外部核查工具使用。
这种性能提升在迁移至新领域时能否保持稳定,目前仍是一个悬而未决的问题。未来的研究可能会侧重于测试该模型在训练阶段未接触过的专业语料库中的表现。
总而言之,GPT-5.5 Instant 的表现证明,提升模型准确率不仅可以依靠扩大规模,通过对注意力机制的精细化调整同样能达到目的。



