清华系团队是石科技打造智能算力电网，单位Token成本降低40%

高端GPU供不应求、国产芯片却大量闲置空转，算力资源的错配正在成为阻碍AI落地的关键瓶颈。针对这一问题，由清华系团队创立的“是石科技”给出了一套新的解题思路：通过构建全域异构算力网络，将高性能计算（HPC）与人工智能计算深度融合，打造面向国产芯片的Token调优工厂。

是石科技成立于2021年，核心团队来自国家超级计算无锡中心，拥有国家级算力中心工程经验，是国内最早将超算智算并行优化技术产业化的团队之一。公司名称取自“实事求是，甘为基石”，创始人兼董事长闫博文1993年出生，毕业于清华大学，为清华计算机系博士后。团队专注自主研发的并行优化技术，专治异构算力资源调度的“疑难杂症”。

算力网络：从单一算力到统一电网

是石科技搭建了全域异构算力资源池，全面兼容NVIDIA GPU以及昇腾、昆仑芯、天数、太初、瀚博半导体等国产AI芯片，同时整合云厂商算力与边缘算力。通过智能调度与弹性扩缩容，实现算力资源的统一纳管与动态分配，企业不再受困于“算力采购难、资源碎片化”。

这一模式类似于将各地不同来源的发电（风电、水电、火电等）接入统一电网。企业在需要算力时只需“插上插头”，系统会自动调度最匹配的资源，无需关心具体来自哪一块芯片。更重要的是，是石科技完成了主流国产AI芯片的深度适配与专项优化，打通了框架适配、算子兼容、通信优化、性能调优全链路，使原本闲置、难调通的国产算力能够高效转化为稳定、可用、低成本的标准化Token推理产能。

Token调优：从技术栈重构到高可用保障

在算力网络之上，是石科技打造了Token调优工厂，从算子、内存、调度、解码等全维度进行技术革新。团队在严格遵守企业级SLA标准下，部署了CUDA Kernel算子级优化、PagedAttention内存优化、Continuous Batching连续批处理、混合精度推理，并配合FlashAttention、推测解码、KV Cache精细化管理、模型并行（TP/PP）等加速方案，大幅提升芯片资源利用率。实测数据显示，在同等算力条件下，是石科技的推理优化方案可将单位Token成本降低40%，同时有效控制推理中的延迟抖动、TTFT与TPOT波动，使Token生成高效、稳定、高品质。

为保证规模化Token生产的稳定性，是石科技构建了多Provider互补与容灾体系，包括自动Fallback故障切换机制，搭配自有集群承载主要流量、合作伙伴集群兜底容灾的流量分配模式，实现99.95%的高可用性服务保障。这一设计类似于飞机引擎的多冗余方案，即便单一算力节点出现故障，系统能在毫秒级感知并切换，确保业务不中断。

一位长期从事AI基础设施的工程师评价说：“过去我们买了国产卡，总要花几个月去调驱动、改框架、修bug。是石科技把这条路铺好了。国产卡不再是‘摆设’，而是真正能跑生产的引擎。”

从异构算力整合到推理优化再到高可用保障，是石科技的目标是建成中国最大、技术最先进、服务最完善的国产Token调优工厂，让千行百业降低AI落地门槛，推动国产算力生态的规模化、高质量发展。当行业仍在追求更大参数量的模型时，这家团队选择了一条更艰难但更具长期价值的道路——重构算力变现路径，让每一颗国产芯片都能产出有商业价值的Token。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

清华系团队是石科技打造智能算力电网，单位Token成本降低40%

算力网络：从单一算力到统一电网

Token调优：从技术栈重构到高可用保障

阿逸

发表回复取消回复

算力网络：从单一算力到统一电网

Token调优：从技术栈重构到高可用保障

阿逸

相关文章

piBrick Pocket-CM5：Raspberry Pi CM5手持PC配键盘与AMOLED触屏

万达轮胎是什么品牌？万达V6、WP18、WH18、WH16怎么样？

Google暂缓新总部建设，裁员潮下收缩银根

发表回复取消回复