智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro,半月内再获融资

智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro,基于原生全模态UiT架构,在多个基准测试刷新SOTA。同时公司半月内再获深创投、金浦投资等亿元级融资,原生全模态路径获资本市场持续看好。

5月19日,智象未来在北京举办首届开放日,正式发布基于原生全模态架构UiT(Unified Transformer)的图像大模型HiDream-O1-Image-Pro。该模型参数规模超过2000亿,在多个基准测试中刷新SOTA纪录,标志着智象未来在图像、视频、文本、音频等多模态统一建模方向上进入“原生全模态”阶段。

同步披露的信息显示,智象未来完成了新一轮亿级融资,由深创投、金浦投资、财鑫资本、复聚资本等机构参与。这是公司在半个月内再次获得融资,反映出资本市场对原生全模态大模型发展方向的持续看好。此前智象未来已宣布完成超5亿元融资,股东包括安徽省产投、合肥产投、东方富海等。

智象未来首届开放日现场
智象未来首届开放日,图片来源:量子位

原生全模态架构:从碎片化拼接到统一表征

当前图像生成领域正从U-Net架构向扩散Transformer(DiT)过渡。主流潜在扩散模型(LDM)通过VAE压缩图像、独立语言模型编码文本,但图像与文本分离编码的方式在复杂语义理解、高保真细节还原、精准文字渲染、多任务泛化等方面面临天然不足。

HiDream-O1-Image-Pro采用的原生全模态架构,将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件在底层表征上的深度融合。这一设计旨在克服多模态拼接的碎片化弊端,提升模型生成与泛化能力。智象未来创始人兼CEO梅涛在开放日上表示,“原生全模态是我们判断实现AGI的必经之路”。联合创始人兼CTO姚霆补充,该架构下各模态从初始阶段就统一建模,能够支持“Any to Any”的任意输入输出转换,这是世界模型所需的能力——在统一架构中理解、生成并预测现实世界的不同状态。

据了解,此前智象未来已发布8B参数的开源版本HiDream-O1-Image,在Artificial Analysis文生图榜单上登顶开源模型全球第一,性能超过Z-Image Turbo、Qwen-Image、FLUX.2 [dev]等主流模型,且是该榜单前20中公开参数量最小的模型。此次发布的闭源版本Pro将参数扩充至200B+,在复杂文本渲染、指令编辑、多主体个性化等任务上树立了新的SOTA,验证了原生全模态架构的可扩展性。

从视觉生成走向世界模型,资本加速布局

开放日上还举办了以“从多模态到全模态,构建世界模型,走向AGI”为主题的圆桌论坛,嘉宾来自东方富海、微软亚洲研究院、阿里云、智象未来等机构。讨论认为,AI正从“生成内容”转向“理解世界”,视觉生成、Agent、具身智能和多模态模型的汇合指向同一个关键能力:模型能否理解不同模态下的环境状态、预测状态变化并形成统一的跨模态表征。原生全模态架构的价值在于为图像、视频、文本、音频乃至动作和具身数据提供统一的建模框架,从而走向更完整的世界建模能力。

在商业化层面,智象未来公开了三大Agent产品的持续扩展,但原文未提供具体产品名称或细节。融资节奏加快:半月内连续完成超5亿元及新一轮亿元级融资,投资方包括深创投、金浦投资、财鑫资本、复聚资本,部分机构已在算力基础设施、大模型及智能体应用等领域有深度布局。财鑫资本作为常德市属国企旗下产业投资平台,聚焦人工智能与具身智能等硬科技;复聚资本则专注于前沿科技投资。整体来看,智象未来凭借在底层模型架构、产品化能力与产业生态布局上的进展,获得了资本市场对其“原生全模态”路径的持续认可。

本文参考来源:量子位

发表回复