阶跃星辰近日正式发布并开源 Step 3.7 Flash,这是一款面向生产级 Agent 的新一代 Flash 模型,专注于 Agent、Coding、Search 与多模态工作流。模型仅激活 11B 参数,但在 SWE-Bench Verified 测试中,开启 Advisor Mode 后代码能力达到 Claude Opus 4.6 的 97%,而单任务成本仅为 $0.19(约合人民币 1.37 元),对比后者 $1.76(约合人民币 12.67 元)成本降为九分之一。这一数据体现了 Flash 路线在性价比上的显著优势,也为将高级编码 Agent 嵌入日常开发流程提供了更低门槛的选择。
在生产环境中,AI Agent 的可靠性、工具调用稳定性与多场景适应能力远比跑分重要。Step 3.7 Flash 重点强化了原生多模态理解能力,能够处理复杂界面、办公文档、图表系统以及浏览器页面等任务环境。面对信息不完整的场景,模型可主动发起搜索并对文本与图像进行交叉验证,实现类似 “Search Agent” 的工作方式。
面向 Agent 生产环境的多模态与调用能力
生产级 Agent 面临的第一道门槛是对真实工作环境的理解。只擅长文本问答的模型,难以处理 UI 界面、专业软件、企业内部系统等混合信息场景。Step 3.7 Flash 在视觉理解上采取了反直觉的设计:模型权重中只保留核心推理引擎,将感知能力与世界知识外推到推理阶段,依靠低延迟和高吞吐以 “多看几眼、多查几遍” 的方式弥补参数规模的限制。阶跃方面表示,这样的思路使得低延迟从部署优势直接转化为模型能力本身的一部分。
在功能演示中,模型能够识别飞机驾驶舱的密集仪表并生成分步骤操作指引;接入手机 GUI Agent 流程后,可理解微信读书热搜榜中的书名、封面、排名与在读人数等结构化信息;面对美团小判官中的商家申诉页面,模型能识别用户评价、图片证据与处理按钮之间的关系,将多模态理解转化为业务流程判断。这些场景展示的不只是 OCR 层面的能力,而是模型进入真实工作流时必须具备的上下文感知与任务转换能力。
工程效率逻辑与市场定位的转变
传统 Flash 模型常被当作旗舰模型的轻量版,主打快与便宜。但在 Agent 成为工作流核心的当下,模型在多轮任务中是否容易偏离目标、能否稳定调用工具、是否能够嵌入企业既有流程长期运转,成为更关键的评判维度。Step 3.7 Flash 的定位已经不再是 “更快的轻量模型”,而是试图成为 “生产环境下效率最高的基座模型”——既向旗舰模型的能力上限看齐,又要把大规模 Agent 调用的效率压力扛住。
在搜索增强方面,模型可基于用户输入图像自动生成检索词、调取网页资料并进行证据拼合。官方称其在 SimpleVQA Search 等复杂视觉检索任务上表现突出。结合开源策略与低部署成本,Step 3.7 Flash 直接切入当前 AI Agent 产业化进程中 “成本可控” 与 “能力可用” 的交汇点。虽然单任务成本大幅低于 Claude Opus 4.6,但保持接近的编码性能,这种工程效率优先的路线或将推动更多团队将大模型 Agent 从测试阶段推向实际生产环境。
本文参考来源:爱范儿
微信扫描下方的二维码阅读本文


