Skymizer发布HTX301推理解码加速器，单PCIe卡集成384GB内存，专攻大模型推理瓶颈

在GPU主导的AI算力赛场边缘，一个来自中国台湾地区的团队正尝试用一颗专用芯片，撬动大模型推理效率的瓶颈。近日，AI知识产权（IP）与解决方案公司Skymizer发布了其首款推理解码阶段专用加速器芯片HTX301。这款芯片的核心设计思路并非取代GPU，而是与之协同工作，专门攻克大模型推理中“解码”阶段的效率难题，其单张PCIe卡集成384GB内存的规格，尤为引人注目。

大模型的推理过程通常分为两个主要阶段：“预填充”和“解码”。预填充阶段，系统需要根据用户的输入提示（prompt），一次性计算出首个输出token所需的所有上下文数据，这个过程并行度高，非常适合GPU的众核架构。真正的效率瓶颈出现在随后的“解码”阶段，模型需要基于已生成的内容，逐个token地循环预测下一个输出，这一过程计算强度相对较低，但极度频繁地访问模型参数，导致GPU强大的计算单元常常处于“饥饿”等待状态，内存带宽成为主要制约。

Skymizer的HTX301瞄准的正是这个痛点。根据公司披露的信息，HTX301被设计为GPU的协处理器。在推理任务中，GPU专注于处理并行的预填充阶段，而一旦进入串行的解码阶段，HTX301便接管主要工作。其核心能力在于超大容量的片上内存和针对小批量、高频率参数读取的优化架构。单颗HTX301芯片即可通过PCIe接口卡提供高达384GB的DDR5内存，这足以将千亿参数级别的模型完全装载于片内，彻底避免了解码时反复从GPU显存或系统内存中搬运数据带来的巨大延迟和功耗。

这种分工协作的模式，被Skymizer称为“推理解码卸载”。其宣称的优势在于提升整个推理系统的资源利用率和能效比。GPU得以从低计算密度的解码任务中解放出来，可以更专注于其擅长的并行计算，或者去处理其他推理任务中的预填充阶段，从而提高整体吞吐量。而专精于解码的HTX301，则能以更高的能效完成token生成。公司提供的数据显示，在特定的大语言模型推理场景下，采用“GPU+HTX301”的方案，相较于单纯使用高端GPU，每瓦性能（能效）有显著提升。

Skymizer并非凭空进入这一赛道。其创始团队在编译器优化和异构计算领域有长期积累，此前主要业务是提供AI编译器等软件工具。此次发布硬件芯片，可视为其向下游延伸，提供软硬一体解决方案的关键一步。HTX301的推出，也反映了AI算力基础设施领域一个正在兴起的趋势：在通用GPU之外，针对推理特定环节的专用加速器正在涌现，以应对模型规模增长带来的成本与能耗挑战。

目前，HTX301芯片已可提供样品，并正在与部分客户进行合作评估。其最终的市场表现，不仅取决于芯片本身的纸面参数和实测能效，更取决于其软件栈的成熟度、与主流AI框架和模型的适配便捷性，以及能否构建起足够有说服力的性价比优势。在巨头环伺的AI硬件领域，Skymizer选择了一个相对细分的切入点，它的实践将为推理算力的优化路径提供另一种值得观察的样本。

参考来源：原新闻链接

Skymizer发布HTX301推理解码加速器，单PCIe卡集成384GB内存，专攻大模型推理瓶颈

阿逸

发表回复取消回复

阿逸

相关文章

离谱！Yuzu模拟器更新后，玩《塞尔达传说：王国之泪》性能暴增了50%

微软提供4K分辨率的Windows XP壁纸下载，蓝天白云绿草地永流传

PCIe 8.0规范v0.3版定稿，2028年正式发布，提供1TB／s带宽

发表回复取消回复