OpenAI今日发布了GPT-5.3-Codex-Spark的研究预览版,这是其首个专为实时编码设计的模型。作为GPT-5.3-Codex的精简版本,该模型在Cerebras晶圆级引擎(Wafer-Scale Engine)上实现了超过每秒1000 tokens的生成速度,相比前代提升15倍,同时支持128K令牌的上下文窗口。该预览目前仅向ChatGPT Pro用户开放。
产品规格与性能亮点
GPT-5.3-Codex-Spark的推出标志着OpenAI在代码生成领域的一次重要迭代。此前的Codex系列模型虽然已具备较强的代码理解与生成能力,但在实时交互场景中仍存在延迟问题。新模型通过模型体积优化和专用推理硬件的结合,将首token延迟压缩至接近即时响应级别。官方数据表明,其生成吞吐量达到每秒1000 tokens以上,相当于每分钟可输出约3万至5万个token,远超传统基于GPU的推理方案。128K的上下文窗口允许模型一次性处理整段大型代码文件或复杂项目结构,减少因上下文切割导致的理解偏差。
在模型架构上,GPT-5.3-Codex-Spark并非对GPT-5.3-Codex的简单剪枝,而是针对编码场景进行了专门的预训练与指令微调。其优化的注意力机制与FFN层设计在保持一定智能水平的前提下大幅降低计算开销,使得在Cerebras专用硬件上能够以极低延迟运行。OpenAI强调,该模型并非单纯追求推理速度,而是在响应时间与生成质量之间取得了平衡——官方称之为“实时编码”(real-time coding)范式。
技术合作与市场定位
GPT-5.3-Codex-Spark是OpenAI与Cerebras自2025年1月宣布合作以来的首个落地成果。Cerebras主打晶圆级芯片技术,其Wafer-Scale Engine将数千个AI核心集成于单一晶圆上,通过巨大的片上SRAM(静态随机存取存储器)和高度并行的计算架构,实现极低的通信延迟和高吞吐量。这一硬件特性与实时编码场景对端到端延迟的严苛要求高度契合。OpenAI选择将代码模型率先部署于Cerebras平台,反映出其在推理基础设施多样化上的战略布局——不再完全依赖NVIDIA GPU,而是引入更多低延迟方案以满足特定工作负载。
从产品定位看,Codex-Spark并非面向所有开发场景的通用模型。它是一个较小的专用版本,主要服务于需要快速、多次迭代的编码辅助任务,例如集成开发环境(IDE)中的实时代码补全、实时错误检测、内联重构建议等。对于更复杂的端到端代码生成或需要深度推理的任务,OpenAI仍推荐使用更大规模的GPT-5.3-Codex模型。这种大小模型并存的策略,有助于降低运营成本并为不同用户群体提供更匹配的服务选项。
目前该模型仅向ChatGPT Pro订阅用户提供研究预览,这暗示OpenAI可能仍在收集反馈以优化模型在真实场景中的表现。Pro用户可直接在ChatGPT的Codex界面中选择Spark模型使用。官方尚未公布向更广泛用户开放的日程,也未披露具体的定价计划。
在AI代码生成工具日益同质化的今天,GPT-5.3-Codex-Spark通过超低延迟和128K上下文树立了新的体验标杆。其对Cerebras硬件的深度绑定也展示了定制化推理方案在落地垂直场景时的巨大潜力。随着开发工具对实时性要求的进一步提升,这种“模型-硬件-场景”三位一体的优化方式或将成为行业发展趋势。
本文参考来源:OpenAI Blog



