多维时间序列预测在金融、气象、能源等领域有着广泛应用,但长期面临一个结构性矛盾:通道独立模型(Channel Independent)虽然在高维数据上扩展性好,却完全忽略了不同变量之间的关联依赖;而通道依赖模型(Channel Dependent)虽能捕获跨维度的交互信息,却受限于维度大小,难以在不同维度和语义的数据集之间迁移。这一矛盾使得构建统一的时间序列基础模型始终缺乏可行路径。
隐式码本解耦:让异构数据共享同一套关联模式
上海交通大学研究团队提出的 Unicorn(Universal Correlation Network)框架,从表征解耦的角度给出了新的解法。Unicorn 的核心是一组可学习的隐式原型码本(latent prototype codebook),它不直接建模某个数据集的特定通道关系,而是通过投影机制将来自不同领域、不同维度的异构时间序列通道映射到一个共享的隐空间中。
具体而言,Unicorn 的技术路径包含几个关键设计:
- 隐式原型码本:一组可训练的基向量集合,用于编码各类跨通道交互模式,不再绑定具体的通道编号或语义标签
- 共享隐空间投影:通过可学习的映射层,将任意维度的原始通道嵌入到码本的公共表示空间中,使码本学到的是”通道交互的一般规律”而非”某个特定数据集的通道排列”
- 即插即用的迁移机制:在少样本场景下,新数据集只需少量数据即可调优投影层,而码本参数可直接复用
“现有方法要么牺牲关联信息换取可扩展性,要么因维度绑定而丧失通用性。”论文第一作者、上海交通大学博士生袁浩宸(Haochen Yuan)表示,”我们的思路是用一个身份无关的码本替代通道编号,使关联模式本身成为可迁移的知识。”
少样本迁移场景下显著超越现有方案
研究团队在覆盖多个领域的基准数据集上进行了全面评估。实验结果显示,Unicorn 在全量数据训练设定下已超越目前最先进的预测架构。而在更具实际意义的少样本迁移场景中——即目标领域仅提供极少量的历史数据——Unicorn 的优势进一步拉大:在仅使用目标数据集 5% 训练样本的条件下,其预测误差相比现有最佳方法降低了 12% 至 18%。
这一结果验证了隐式码本设计在跨领域泛化方面的有效性。Unicorn 的能力边界还远未触顶,随着参与预训练的数据集规模和多样性增加,其预测性能持续呈现上升趋势,这为构建真正可扩展的多维时间序列基础模型提供了技术基础。
局限性与后续
Unicorn 当前版本主要面向规则的栅格化时间序列数据,对于非等间距采样或含有大量缺失值的不规则序列,其投影机制仍需要额外的预处理步骤。此外,隐式码本的容量(原型数量)对最终性能有显著影响,目前尚缺乏自动确定最优码本大小的理论指导。团队计划在后续工作中引入自适应码本压缩机制,并将 Unicorn 扩展至多模态时间序列场景。