不同人脑之间真存在一套通用几何
5 月 22 日在 arXiv 上线的论文 2605.20496 给出一个让神经科学界久违兴奋的结论——把不同被试者的大脑皮层活动投影到一个统一的低维空间后,这些来自不同人的轨迹竟然走在同一片几何流形上。论文标题《Universal Geometric Representations across Human Cortices》出自普林斯顿、剑桥与 Meta FAIR 联合团队,第一作者 Maya Chen,通讯作者是去年因 brain decoding 研究受关注的 Bertrand Thirion。

实验数据:142 人、48 万条轨迹、48 维几何
团队用了三组开源数据集——Human Connectome Project(100 人 task-fMRI)、Algonauts 2025 视觉解码挑战赛(27 人)、Narratives 听觉数据集(15 人)。每名被试在扫描期间分别完成视觉、语言、运动想象三类任务。原始数据是每人约 90 分钟的 BOLD 信号,时间分辨率 0.8 秒,空间体素 91×109×91。
关键步骤是把每名被试的高维 BOLD 投影到一个共享 48 维的潜在空间。投影器不是简单 PCA,而是一个 transformer 编码器,用对比学习训练——同一段刺激在不同被试上的脑信号被拉近,不同刺激被推远。训练目标是让模型学会”刺激—响应”在跨人之间不变的成分,丢掉个体解剖差异(脑沟形态、皮层厚度、噪声水平)。
结果直观可视化时,研究者把视觉刺激的轨迹画在 t-SNE 二维投影上。同一段电影《阿甘正传》开场前 2 分钟,14 名被试看时各自走出一条轨迹,把这些轨迹叠到通用几何空间,可以看出轨迹高度重合——皮尔森相关系数 0.83(个体到群体平均)。语言任务上重合系数 0.79,运动想象 0.71。三个任务三组系数都显著高于打乱配对的 baseline(0.12、0.09、0.08,p<0.001)。
跨主体解码:A 听到的,B 能”读”出来
这套通用几何最实用的延伸是跨被试 brain decoding。过去 10 年的 brain-to-text、brain-to-image 工作都需要每名被试单独训练 decoder,意味着新被试上线就要重新采集几小时数据。论文 Sec.4 给出的数据是——把 30 名被试的几何投影聚合成一个共享 decoder,新被试只要做 5 分钟标定就能用,解码精度(在 Algonauts 视觉刺激集上 top-5 retrieval)从 baseline 的 31% 升到 68%,超过用本人 1 小时数据单独训的版本(62%)。
更进一步,团队做了 cross-subject 实验:用被试 A 的脑信号做输入,把 latent 拿到被试 B 上重建。重建图像和被试 B 实际看到的图像之间的 CLIP-T 相似度达到 0.41,而随机配对的基线是 0.04。这是直接的”我用你的脑想我看的东西”。
研究者明确这个能力的边界——重建的清晰度仍远不到产品级,差不多是模糊语义级(”她看到一片绿色草地,前景有人”),并不是高保真还原。但能跨人投递信号、并保留语义结构,已经是过去做不到的事情。
它是不是认知普适性的硬证据
神经科学界过去一直争论:”不同个体的大脑表征是个体特定的,还是物种共享的?”早期 fMRI 研究因为信号低、被试少,只能给出”功能区粗分布相似”的弱结论。这次 142 人的样本量配上对比学习投影,给出了相对强的实证——在 48 维以下的低维流形上,三类高级认知任务呈现共享几何。
有意思的是,作者明确说不主张”完全一致”。论文 Fig.5 显示,越接近初级感知(视网膜→V1)几何越一致;越往高阶认知(语义、意图)走,几何相似度逐步衰减——视觉初级区相似度 0.91,前额叶 working memory 区相似度 0.58。这条衰减曲线印证一个老话题:低层信号高度共享,高层语义带个体烙印。
把脑当成 LLM 来 align
这篇论文真正有意思的地方在方法学。团队明显借了多模态对齐的工具——transformer encoder、对比损失、共享 latent——把它套到神经科学场景。这是过去几年 AI 借神经科学的反向操作。Bertrand Thirion 在 X 上回应批评时直接说:”我们其实没设计什么神经科学专用模型,就是 SigLIP 那一套,只不过 modality 换成 BOLD 信号。”
这种”把神经活动当成又一个 modality”的视角,会改变接下来 5 年 brain decoding 研究的工程方法。过去做这块要懂解剖、懂 BOLD 物理学、懂受试者间对齐,门槛极高;现在变成”采数据—投影—对比学习”,AI 工程师可以无缝介入。Meta、Neuralink、Synchron 这些 BCI 公司必然要跟进。
当然要泼冷水的是,论文跑的是非侵入 fMRI,不是侵入式 BCI。BCI 市场关心的是几毫秒延迟下的运动控制,跟 fMRI 几秒分辨率不在一个量级。这套通用几何是否能下沉到 ECoG、Utah Array 等高分辨率电极信号上,作者在 Future Work 里写”正在合作中”,还需要后续观察。但作为 fMRI 时代收尾的一篇代表作,2605.20496 已经把”个体特异性”这个老议题往群体几何方向推了显著的一步。
参考链接: