自回归模型中的轨迹意义表示

Oct, 2023

Meaning Representations from Trajectories in Autoregressive Models

Tian Yu Liu, Matthew Trager, Alessandro Achille, Pramuditha Perera, Luca Zancato...

TL;DR我们提出了一种从自回归语言模型中提取含义表示的方法，通过考虑扩展输入文本的所有可能轨迹的分布来实现。这种策略是无提示的，不需要微调，并且适用于任何预训练的自回归模型。此外，与基于向量的表示不同，基于分布的表示还可以通过使用似然函数之间的代数运算来建模非对称关系（例如，逻辑蕴含的方向，上位词 / 下位词关系）。这些思想扎根于语义上的分布观点，并与自动机理论中的标准构造相连接，但据我们所知，它们尚未应用于现代语言模型。我们通过实验证明，从大型模型获得的表示与人类注释相匹配，比其他零样本和无提示方法在语义相似性任务上表现更好，并且可以用于解决标准嵌入不能处理的更复杂的蕴含和包含任务。最后，我们将我们的方法扩展到使用多模态自回归模型表示来自不同模态（例如，图像和文本）的数据。

Abstract

We propose to extract meaning representations from autoregressive language models by considering the distribution of all possible trajectories extending an input text. This strategy is prompt-free, does not require fine-tuning, and is applicable to any pre-trained autoregressive model.

autoregressive language models meaning representations distribution-based representations semantic similarity tasks multimodal autoregressive models

发现论文，激发创造

嵌入式表示应该嵌入什么？自回归模型表示潜在的生成分布

通过将自回归预测目标与构建预测充分统计量的思想联系起来，我们确定了三种情况下嵌入的最佳内容：独立同分布数据、潜在状态模型和离散假设空间，并进行实证研究表明 Transformers 编码了这三种潜在生成分布，并在这些情况下表现良好。

Jun, 2024

轨迹是否编码动词意义？

本研究探讨了轨迹（即物体位置和旋转随时间变化的道路）能否自然地编码动词语义，研究结果表明，轨迹本身与某些动词（如 fall）相关联，而通过自我监督预训练来进行进一步的抽象可以更好地捕捉动词含义上的细微差别（如 roll 与 slide）。

Jun, 2022

INFER: 用于未来预测的中间表示

通过使用语义信息，我们提出了一种中间表示形式，并训练了一个自回归模型来准确预测城市道路交通参与者的未来路线，该表示形式适用于多目标跟踪等领域，并且可以泛化到各种城市和路况。

Mar, 2019

使用时间语言模型学习动态作者表示

该研究提出一种基于循环语言建模的神经模型，通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势，从而超越了多个基于时间和非时间的语言基线，并学习了随时间变化的有意义的作者表示。

Sep, 2019

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

大型语言模型隐式学习将神经句子轨迹纠正为自然语言的预测性表示

用于预测的自回归变换器的预测表示通过逐渐变得更加直线化来实现更好的语言建模性能，并与句子的惊异程度之间存在一致的关系。

Nov, 2023

神经语言模型中的隐含意义表示

研究表明预先训练的神经语言模型中的预测至少部分地由意义的动态表示和实体状态的隐含模拟支持，并且这种行为可以仅依靠文本作为训练数据来学习。

Jun, 2021

无需单词对齐的多语言分布式表示

提出了一种在多语种情况下学习分布式表征的方法，该方法将分配相似的嵌入对齐句子，并分配不对齐的句子不相似的嵌入，模型学习到的表征具有语义信息，能够应用于跨语种文档分类任务，且未使用并行数据学习到能够跨语种捕捉语义关系的表征。

Dec, 2013

分布语义的向量空间用于蕴涵

本文提出了一个基于向量空间的模型，通过平均场近似，发展了逼近推理程序和蕴涵操作，用于重新解释现有的分布式语义模型（Word2Vec），以近似预测词汇蕴涵关系，通过无监督和半监督实验，在下义词检测方面取得了显著的改进。

Jul, 2016