韩国AI芯片初创企业FuriosaAI宣布与博通(Broadcom)达成合作,共同开发一款面向AI推理场景的第三代加速器。该产品放弃了传统GPU架构路线,采用2nm制程的小芯片(chiplet)设计与HBM4/HBM4E内存,旨在为大规模AI计算集群提供更高带宽和能效。

产品规格梳理
FuriosaAI的第三代加速器基于其自研的TCP(Tensor Contraction Processor,张量收缩处理器)架构,此次通过与博通的封装技术合作,将TCP核心扩展为多裸晶(multi-die)系统级封装(SoP)方案。芯片采用2nm工艺制造,并配备HBM4或HBM4E内存,官方称其内存带宽表现能超越市面上“最高效的”GPU产品。该加速器定位AI推理市场,尤其面向大语言模型(LLM)与智能体式AI(Agentic AI)工作负载,支持机架级高速互联,可部署于大规模AI计算集群。
FuriosaAI此前已在台积电5nm节点上实现了第二代RNGD平台的大规模量产,该平台以180W功耗、PCIe插卡形态运行,已获得三星SDS、LG AI Research等客户的采用。第三代产品是RNGD平台的又一次重大迭代,但具体功耗、形态与上市时间尚未披露。
架构与内存技术
第三代加速器的核心创新在于采用chiplet设计,将多个TCP计算裸晶通过博通的先进封装技术整合在一个封装内,以突破单芯片的算力与带宽瓶颈。内存方面率先支持JEDEC新一代高带宽存储标准HBM4及更高带宽的HBM4E,相比当前主流的HBM3/HBM3E,其总带宽将进一步提升。FuriosaAI声称,在推理任务所需的高带宽数据搬运方面,该加速器能够在单位功耗下输出更高性能,并在相同节点内实现更高的token密度,从而在总拥有成本(TCO)上优于现有GPU方案。
市场定位分析
目前AI推理市场高度依赖NVIDIA等厂商的通用GPU,但FuriosaAI等专用推理芯片厂商认为GPU架构在推理效率上并非最优解。FuriosaAI CEO曾表示:“2036年的AI数据中心不会塞满GPU”。此番携手博通,旨在将其TCP架构从单芯片扩展到多芯片系统,以满足云服务商对高吞吐、低延迟推理日益增长的需求。通过与博通在封装层面的合作,FuriosaAI可以获得更大的设计和产能灵活性,从而面向更大规模的客户群体。
目前FuriosaAI已实现第二代产品量产并拥有三星SDS、LG AI Research等企业客户,第三代产品进入开发阶段。博通近年已与多家AI芯片公司就其先进封装达成合作,此次FuriosaAI的加入,也印证了定制AI加速器与专业化封装的趋势正持续升温。
本文参考来源:Wccftech
微信扫描下方的二维码阅读本文


