Liquid AI发布LFM2.5-8B-A1B:面向设备端的MoE推理模型

Liquid AI发布LFM2.5-8B-A1B边缘AI推理模型,基于MoE架构,38T tokens预训练,128K上下文窗口,词汇量翻倍,支持设备端工具调用,性能显著提升。

Liquid AI于2026年5月28日正式发布LFM2.5-8B-A1B模型,这是一款面向消费级硬件优化的边缘AI模型,采用混合专家架构(MoE),总参数量8B、激活参数量约1B。该模型基于2025年10月推出的LFM2-8B-A1B,在多项关键规格上实现大幅升级。

液态智能的新篇章:liquid ai发布液态基础模型
液态智能的新篇章:Liquid AI发布液态基础模型

核心升级包括:上下文窗口扩展至128K tokens,预训练数据量从12T tokens提升至38T tokens,并引入大规模强化学习训练。词汇表容量从65,536翻倍至128,000,显著优化了非拉丁语言的tokenization效率,在印地语、泰语、越南语、印尼语和阿拉伯语等语种上的压缩增益尤为突出。

架构与训练细节

LFM2.5-8B-A1B延续了前代的架构设计,包含MoE、分组查询注意力(GQA)和门控短卷积块。词汇表的扩展采用原地BPE合并训练,从原始合并状态继续在多语言语料上训练,使大部分原有token保持身份映射,新token可确定性地分解为原子token序列。新嵌入行初始化为原子token分解的均值,并通过两阶段适应(先仅训练嵌入层,再全模型继续预训练)恢复质量。

与上一代不同,LFM2.5-8B-A1B是一个推理模型(reasoning model),会在最终答案前生成显式思维链(chain-of-thought)。MoE模型通常在计算受限场景下运行,活跃参数较少使每个推理token的成本降低,从而在不牺牲速度的前提下显著提升输出质量。

模型已提供基础版(LFM2.5-8B-A1B-Base)和后训练版(LFM2.5-8B-A1B),可通过Hugging Face和Playground获取,并支持llama.cpp、MLX、vLLM、SGLang等推理框架,可在入门级笔记本电脑上流畅运行。

性能与应用场景

得益于扩展训练和推理能力,新版模型在AA-Omniscience指数(奖励正确回答、惩罚幻觉,分值范围-100至100)上表现大幅领先前代,在指令遵循和智能体任务上可媲美更大规模的稠密与MoE模型。模型专为设备端应用设计,擅长工具调用链(tool calling)和复杂指令执行,适合作为个人助理的推理核心。

在吞吐量方面,LFM2.5-8B-A1B在同尺寸模型中实现了最快的CPU和GPU推理速度,为边缘AI部署提供了可靠的性能基础。

本文参考来源:Hacker News



微信扫描下方的二维码阅读本文

Liquid AI发布LFM2.5-8B-A1B:面向设备端的MoE推理模型 - 128K上下文, LFM2.5-8B-A1B, Liquid AI, MoE架构, 大语言模型, 工具调用修复, 混合推理模型, 边缘AI

发表回复