智象未来发布 HiDream-O1-Image-Pro：UiT 统一架构与亿元新融资

智象未来把多模态融在一个统一架构里

5 月 21 日，智象未来（HiDream.ai）发布了新一代全模态大模型 HiDream-O1-Image-Pro，参数规模 2000 亿以上，同步公布的还有一笔过亿元的新一轮融资——距离上一轮（2026 年 4 月）刚好半个月。模型一周前在内部小范围对接客户，5 月 21 日正式对外开放 API。这是国内第一个把图像、视频、3D、音频四个模态用同一套底层 transformer 架构跑通的产品级模型，公司方将其命名为 UiT（Unified Multimodal Transformer）。

智象未来 HiDream-O1-Image-Pro 模型示意 — UiT 架构把四个模态压在同一套 transformer 上

UiT 跟传统多模态的差别

过去主流多模态模型（包括 OpenAI 的 GPT-4o、Google Gemini 2.5）大多是”多个专家模型加上路由器”的架构——文本一个模型、图像一个模型、视频一个模型，前面套个 dispatcher 决定走哪一条。这种结构好处是可以分别优化，缺点是模态之间的语义对齐要靠后处理拼接，跨模态指令容易掉链子。智象的 UiT 走的是另一条路——所有模态被映射到同一套 latent token 空间，4 个模态共享同一组 attention 权重，靠 modality embedding 区分输入类型。

智象未来的 CEO 梅涛是中科院计算所出身，曾任京东人工智能研究院副院长；CTO 姚霆同样来自计算所，专长在视频理解。这一对组合让公司从一开始就更偏研究密集型——他们的论文产出在国内创业公司里排名前列。梅涛在产品发布会上说了一段比较直接的话：”过去三年我们做过两版多模态架构，第一版照搬 GPT-4o 的拼接结构，发现影视客户根本用不起来——他们要的是从分镜到成片连贯的工作流，模态之间一旦对齐不上整段就废了。UiT 是被业务逼出来的架构选择。”

影视行业的真实工作流

这家公司的目标客户不是 C 端创作者，而是影视、广告、短剧产线。模型对外开放的同步动作是发布”创梦”工作站——从剧本到分镜、从分镜到角色、从角色到成片视频，整条链路在一个产品里跑通。智象内部公布的数据是：一个 30 秒的短视频广告，过去用其他工具拼接需要 6 到 8 小时（设计师 + 剪辑师 + AI 工具操作员），用创梦平均 47 分钟一人能做完。这个数字被国内几家广告公司——蓝色光标、华扬联众——验证过，使用反馈集中在两点：风格一致性比国内其他平台稳，但对中文古风场景的理解还是不如对现代场景。

融资这边的细节也值得一提。智象未来这一轮过亿元投资的领投方是阿里云，跟投有北京市人工智能产业基金。阿里云入局意味着模型推理算力和云端发行渠道有了打通的可能；北京国资跟投则跟北京市 4 月发布的”具身智能与多模态创新平台”政策方向一致。从估值看，这一轮过后公司估值约 60 亿人民币，距离 2024 年首轮的 8 亿涨了 7 倍多。

统一架构的赌注

智象未来这次的发布有两件事值得关注。一是技术路线的赌注——UiT 这种统一架构在国际上还没有公认的赢家，OpenAI 和 Google 都还停在专家拼接路径上，智象走得相对激进，跑通了就是抢跑，跑不通就要补一年。二是商业模式的赌注——把目标客户压在影视广告这个细分赛道，避开了通用大模型的红海，但也意味着公司要长期承担行业 know-how 的积累成本。半个月连拿两轮融资说明资本市场还在愿意看这个赌注，但真正决定胜负的不是融资速度，而是创梦平台能不能把”47 分钟做一条短视频广告”的体验复制到更多客户手里。

参考链接：

量子位：智象未来全模态大模型发布

智象未来发布全模态大模型

智象未来把多模态融在一个统一架构里

UiT 跟传统多模态的差别

影视行业的真实工作流

统一架构的赌注

相关推荐