高端GPU供不应求、国产芯片却大量闲置空转,算力资源的错配正在成为阻碍AI落地的关键瓶颈。针对这一问题,由清华系团队创立的“是石科技”给出了一套新的解题思路:通过构建全域异构算力网络,将高性能计算(HPC)与人工智能计算深度融合,打造面向国产芯片的Token调优工厂。
是石科技成立于2021年,核心团队来自国家超级计算无锡中心,拥有国家级算力中心工程经验,是国内最早将超算智算并行优化技术产业化的团队之一。公司名称取自“实事求是,甘为基石”,创始人兼董事长闫博文1993年出生,毕业于清华大学,为清华计算机系博士后。团队专注自主研发的并行优化技术,专治异构算力资源调度的“疑难杂症”。
算力网络:从单一算力到统一电网
是石科技搭建了全域异构算力资源池,全面兼容NVIDIA GPU以及昇腾、昆仑芯、天数、太初、瀚博半导体等国产AI芯片,同时整合云厂商算力与边缘算力。通过智能调度与弹性扩缩容,实现算力资源的统一纳管与动态分配,企业不再受困于“算力采购难、资源碎片化”。

这一模式类似于将各地不同来源的发电(风电、水电、火电等)接入统一电网。企业在需要算力时只需“插上插头”,系统会自动调度最匹配的资源,无需关心具体来自哪一块芯片。更重要的是,是石科技完成了主流国产AI芯片的深度适配与专项优化,打通了框架适配、算子兼容、通信优化、性能调优全链路,使原本闲置、难调通的国产算力能够高效转化为稳定、可用、低成本的标准化Token推理产能。
Token调优:从技术栈重构到高可用保障
在算力网络之上,是石科技打造了Token调优工厂,从算子、内存、调度、解码等全维度进行技术革新。团队在严格遵守企业级SLA标准下,部署了CUDA Kernel算子级优化、PagedAttention内存优化、Continuous Batching连续批处理、混合精度推理,并配合FlashAttention、推测解码、KV Cache精细化管理、模型并行(TP/PP)等加速方案,大幅提升芯片资源利用率。实测数据显示,在同等算力条件下,是石科技的推理优化方案可将单位Token成本降低40%,同时有效控制推理中的延迟抖动、TTFT与TPOT波动,使Token生成高效、稳定、高品质。
为保证规模化Token生产的稳定性,是石科技构建了多Provider互补与容灾体系,包括自动Fallback故障切换机制,搭配自有集群承载主要流量、合作伙伴集群兜底容灾的流量分配模式,实现99.95%的高可用性服务保障。这一设计类似于飞机引擎的多冗余方案,即便单一算力节点出现故障,系统能在毫秒级感知并切换,确保业务不中断。
一位长期从事AI基础设施的工程师评价说:“过去我们买了国产卡,总要花几个月去调驱动、改框架、修bug。是石科技把这条路铺好了。国产卡不再是‘摆设’,而是真正能跑生产的引擎。”
从异构算力整合到推理优化再到高可用保障,是石科技的目标是建成中国最大、技术最先进、服务最完善的国产Token调优工厂,让千行百业降低AI落地门槛,推动国产算力生态的规模化、高质量发展。当行业仍在追求更大参数量的模型时,这家团队选择了一条更艰难但更具长期价值的道路——重构算力变现路径,让每一颗国产芯片都能产出有商业价值的Token。
本文参考来源:量子位
微信扫描下方的二维码阅读本文



