智象未来发布超2000亿参数图像大模型HiDream-O1-Image-Pro，半月内再获融资

5月19日，智象未来在北京举办首届开放日，正式发布基于原生全模态架构UiT（Unified Transformer）的图像大模型 HiDream-O1-Image-Pro。该模型参数规模超过2000亿，在多个基准测试中刷新SOTA纪录，标志着智象未来在图像、视频、文本、音频等多模态统一建模方向上进入“原生全模态”阶段。

同步披露的信息显示，智象未来完成了新一轮亿级融资，由深创投、金浦投资、财鑫资本、复聚资本等机构参与。这是公司在半个月内再次获得融资，反映出资本市场对原生全模态大模型发展方向的持续看好。此前智象未来已宣布完成超5亿元融资，股东包括安徽省产投、合肥产投、东方富海等。

原生全模态架构：从碎片化拼接到统一表征

当前图像生成领域正从U-Net架构向扩散Transformer（DiT）过渡。主流潜在扩散模型（LDM）通过VAE压缩图像、独立语言模型编码文本，但图像与文本分离编码的方式在复杂语义理解、高保真细节还原、精准文字渲染、多任务泛化等方面面临天然不足。

HiDream-O1-Image-Pro采用的原生全模态架构，将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间，实现图像、文本与多任务条件在底层表征上的深度融合。这一设计旨在克服多模态拼接的碎片化弊端，提升模型生成与泛化能力。智象未来创始人兼CEO梅涛在开放日上表示，“原生全模态是我们判断实现AGI的必经之路”。联合创始人兼CTO姚霆补充，该架构下各模态从初始阶段就统一建模，能够支持“Any to Any”的任意输入输出转换，这是世界模型所需的能力——在统一架构中理解、生成并预测现实世界的不同状态。

据了解，此前智象未来已发布8B参数的开源版本HiDream-O1-Image，在Artificial Analysis文生图榜单上登顶开源模型全球第一，性能超过Z-Image Turbo、Qwen-Image、FLUX.2 [dev]等主流模型，且是该榜单前20中公开参数量最小的模型。此次发布的闭源版本Pro将参数扩充至200B+，在复杂文本渲染、指令编辑、多主体个性化等任务上树立了新的SOTA，验证了原生全模态架构的可扩展性。

从视觉生成走向世界模型，资本加速布局

开放日上还举办了以“从多模态到全模态，构建世界模型，走向AGI”为主题的圆桌论坛，嘉宾来自东方富海、微软亚洲研究院、阿里云、智象未来等机构。讨论认为，AI正从“生成内容”转向“理解世界”，视觉生成、Agent、具身智能和多模态模型的汇合指向同一个关键能力：模型能否理解不同模态下的环境状态、预测状态变化并形成统一的跨模态表征。原生全模态架构的价值在于为图像、视频、文本、音频乃至动作和具身数据提供统一的建模框架，从而走向更完整的世界建模能力。

在商业化层面，智象未来公开了三大Agent产品的持续扩展，但原文未提供具体产品名称或细节。融资节奏加快：半月内连续完成超5亿元及新一轮亿元级融资，投资方包括深创投、金浦投资、财鑫资本、复聚资本，部分机构已在算力基础设施、大模型及智能体应用等领域有深度布局。财鑫资本作为常德市属国企旗下产业投资平台，聚焦人工智能与具身智能等硬科技；复聚资本则专注于前沿科技投资。整体来看，智象未来凭借在底层模型架构、产品化能力与产业生态布局上的进展，获得了资本市场对其“原生全模态”路径的持续认可。

本文参考来源：量子位

智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro，半月内再获融资

原生全模态架构：从碎片化拼接到统一表征

从视觉生成走向世界模型，资本加速布局

阿逸

发表回复取消回复

原生全模态架构：从碎片化拼接到统一表征

从视觉生成走向世界模型，资本加速布局

阿逸

相关文章

建筑自动化平台Xpanner获1800万美元B轮融资，扩大AI驱动方案

发表回复取消回复