最具争议性研究:大模型中间层输出可 100% 反推原始输入
Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。 作者丨郑佳美 编辑丨马晓宁 最近,一篇名为《Language Models are Injective and Hence Invertible》的论文在学术界和科技圈引起了广泛讨论,甚至连老马的 Grok 官方也下场转发。 这篇论文出自意大利罗马第一大学(Sapienza University of Rome)的 GLADIA Research Lab,文中提出了一个颇有争议却又耐人寻味的观点:主流的 Transformer 语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看,它们是可逆的。 换句话说,模型的隐藏状态并不是模糊的语义压缩,而是一种能够完整保留输入信息的精确重编码。这一发现不仅挑战了人们对语言模型“理解”机制的传统认识,也让研究者开始思考一个更具体的问题:这种理论上的信息保持,在实际模型中是否真的存在? 为了回答这一问题,作者设计并实施了一系列大规模实验,试图从实证角度验证 Transformer 的可逆性与单射特性。 01 Transformer 几乎不会丢失信息...