Skymizer发布HTX301推理解码加速器,单PCIe卡集成384GB内存,专攻大模型推理瓶颈

GPU主导的AI算力赛场边缘,一个来自中国台湾地区的团队正尝试用一颗专用芯片,撬动大模型推理效率的瓶颈。近日,AI知识产权(IP)与解决方案公司Skymizer发布了其首款推理解码阶段专用加速器芯片HTX301。这款芯片的核心设计思路并非取代GPU,而是与之协同工作,专门攻克大模型推理中“解码”阶段的效率难题,其单张PCIe卡集成384GB内存的规格,尤为引人注目。

大模型的推理过程通常分为两个主要阶段:“预填充”和“解码”。预填充阶段,系统需要根据用户的输入提示(prompt),一次性计算出首个输出token所需的所有上下文数据,这个过程并行度高,非常适合GPU的众核架构。真正的效率瓶颈出现在随后的“解码”阶段,模型需要基于已生成的内容,逐个token地循环预测下一个输出,这一过程计算强度相对较低,但极度频繁地访问模型参数,导致GPU强大的计算单元常常处于“饥饿”等待状态,内存带宽成为主要制约。

Skymizer的HTX301瞄准的正是这个痛点。根据公司披露的信息,HTX301被设计为GPU的协处理器。在推理任务中,GPU专注于处理并行的预填充阶段,而一旦进入串行的解码阶段,HTX301便接管主要工作。其核心能力在于超大容量的片上内存和针对小批量、高频率参数读取的优化架构。单颗HTX301芯片即可通过PCIe接口卡提供高达384GB的DDR5内存,这足以将千亿参数级别的模型完全装载于片内,彻底避免了解码时反复从GPU显存或系统内存中搬运数据带来的巨大延迟和功耗。

这种分工协作的模式,被Skymizer称为“推理解码卸载”。其宣称的优势在于提升整个推理系统的资源利用率和能效比。GPU得以从低计算密度的解码任务中解放出来,可以更专注于其擅长的并行计算,或者去处理其他推理任务中的预填充阶段,从而提高整体吞吐量。而专精于解码的HTX301,则能以更高的能效完成token生成。公司提供的数据显示,在特定的大语言模型推理场景下,采用“GPU+HTX301”的方案,相较于单纯使用高端GPU,每瓦性能(能效)有显著提升。

Skymizer并非凭空进入这一赛道。其创始团队在编译器优化和异构计算领域有长期积累,此前主要业务是提供AI编译器等软件工具。此次发布硬件芯片,可视为其向下游延伸,提供软硬一体解决方案的关键一步。HTX301的推出,也反映了AI算力基础设施领域一个正在兴起的趋势:在通用GPU之外,针对推理特定环节的专用加速器正在涌现,以应对模型规模增长带来的成本与能耗挑战。

目前,HTX301芯片已可提供样品,并正在与部分客户进行合作评估。其最终的市场表现,不仅取决于芯片本身的纸面参数和实测能效,更取决于其软件栈的成熟度、与主流AI框架和模型的适配便捷性,以及能否构建起足够有说服力的性价比优势。在巨头环伺的AI硬件领域,Skymizer选择了一个相对细分的切入点,它的实践将为推理算力的优化路径提供另一种值得观察的样本。

参考来源:原新闻链接

发表回复