智象未来发布全模态大模型

AI资讯

智象未来把多模态融在一个统一架构里

5 月 21 日,智象未来(HiDream.ai)发布了新一代全模态大模型 HiDream-O1-Image-Pro,参数规模 2000 亿以上,同步公布的还有一笔过亿元的新一轮融资——距离上一轮(2026 年 4 月)刚好半个月。模型一周前在内部小范围对接客户,5 月 21 日正式对外开放 API。这是国内第一个把图像、视频、3D、音频四个模态用同一套底层 transformer 架构跑通的产品级模型,公司方将其命名为 UiT(Unified Multimodal Transformer)。

智象未来 HiDream-O1-Image-Pro 模型示意
UiT 架构把四个模态压在同一套 transformer 上

UiT 跟传统多模态的差别

过去主流多模态模型(包括 OpenAI 的 GPT-4o、Google Gemini 2.5)大多是”多个专家模型加上路由器”的架构——文本一个模型、图像一个模型、视频一个模型,前面套个 dispatcher 决定走哪一条。这种结构好处是可以分别优化,缺点是模态之间的语义对齐要靠后处理拼接,跨模态指令容易掉链子。智象的 UiT 走的是另一条路——所有模态被映射到同一套 latent token 空间,4 个模态共享同一组 attention 权重,靠 modality embedding 区分输入类型。

智象未来的 CEO 梅涛是中科院计算所出身,曾任京东人工智能研究院副院长;CTO 姚霆同样来自计算所,专长在视频理解。这一对组合让公司从一开始就更偏研究密集型——他们的论文产出在国内创业公司里排名前列。梅涛在产品发布会上说了一段比较直接的话:”过去三年我们做过两版多模态架构,第一版照搬 GPT-4o 的拼接结构,发现影视客户根本用不起来——他们要的是从分镜到成片连贯的工作流,模态之间一旦对齐不上整段就废了。UiT 是被业务逼出来的架构选择。”

影视行业的真实工作流

这家公司的目标客户不是 C 端创作者,而是影视、广告、短剧产线。模型对外开放的同步动作是发布”创梦”工作站——从剧本到分镜、从分镜到角色、从角色到成片视频,整条链路在一个产品里跑通。智象内部公布的数据是:一个 30 秒的短视频广告,过去用其他工具拼接需要 6 到 8 小时(设计师 + 剪辑师 + AI 工具操作员),用创梦平均 47 分钟一人能做完。这个数字被国内几家广告公司——蓝色光标、华扬联众——验证过,使用反馈集中在两点:风格一致性比国内其他平台稳,但对中文古风场景的理解还是不如对现代场景。

融资这边的细节也值得一提。智象未来这一轮过亿元投资的领投方是阿里云,跟投有北京市人工智能产业基金。阿里云入局意味着模型推理算力和云端发行渠道有了打通的可能;北京国资跟投则跟北京市 4 月发布的”具身智能与多模态创新平台”政策方向一致。从估值看,这一轮过后公司估值约 60 亿人民币,距离 2024 年首轮的 8 亿涨了 7 倍多。

统一架构的赌注

智象未来这次的发布有两件事值得关注。一是技术路线的赌注——UiT 这种统一架构在国际上还没有公认的赢家,OpenAI 和 Google 都还停在专家拼接路径上,智象走得相对激进,跑通了就是抢跑,跑不通就要补一年。二是商业模式的赌注——把目标客户压在影视广告这个细分赛道,避开了通用大模型的红海,但也意味着公司要长期承担行业 know-how 的积累成本。半个月连拿两轮融资说明资本市场还在愿意看这个赌注,但真正决定胜负的不是融资速度,而是创梦平台能不能把”47 分钟做一条短视频广告”的体验复制到更多客户手里。


参考链接: