Transformer 模型中表示形式的自下而上演化：机器翻译和语言建模目标研究

EMNLPSep, 2019

Transformer 模型中表示形式的自下而上演化：机器翻译和语言建模目标研究

The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives

PDF

Elena Voita, Rico Sennrich, Ivan Titov

TL;DR本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变，通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动，并说明此流程如何取决于学习目标的选择。

Abstract

We seek to understand how the representations of individual tokens and the structure of the learned feature space evolve between layers in deep neural networks under different learning objectives. We focus on the transf

deep neural networks transformers learning objectives canonical correlation analysis mutual information estimators

发现论文，激发创造

评估神经机器翻译中的表示层对词性标注和语义标注任务的影响

本文研究了神经机器翻译中不同层面的向量表示的学习情况，并发现高层次对语义的学习更有效，而较低层次对词性标注的学习效果更好。

Jan, 2018

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024

神经机器翻译模型的语言表征能力

本研究分析了神经机器翻译模型在不同粒度上学习到的表示，并通过相关的外围特性对其质量进行评估，结果表明深层次的 NMT 模型学习了大量的语言信息，其中鲜明的发现包括：（i）词组结构和词类等语言单元在模型较低的层次上被捕捉；（ii）而词汇语义或非局部的句法和语义依存则在较高层次上表示更好；（iii）使用字符所学习的表示比使用子词单位所学习的更具有词形信息；（iv）多语言模型所学习的表示比双语模型更加丰富。

Nov, 2019

目标很重要：理解自监督目标对视觉 Transformer 表示的影响

本研究分析了视觉变压器自监督学习的两种主要范式，在结构和可转移性方面的影响差异，揭示了联合嵌入特征在分类线性探针传输方面表现更好的原因。

Apr, 2023

跳到结论：利用线性转换简化 Transformer

通过使用线性转换法，我们展示了在语言模型中激活层早期的内部决策过程，这种方法不仅可以产生更加精确的近似结果，还具有节省计算资源的优点。

Mar, 2023

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

Transformer 从语言到视觉到 MOT 的发展：对基于 Transformer 的多目标跟踪的文献综述

transformer 神经网络结构通过注意力机制实现自回归的序列到序列建模，在自然语言处理和计算机视觉等领域取得了重大突破。本文综述了在计算机视觉领域中应用 transformer 的主要进展，并针对多目标跟踪 (MOT) 进行讨论，指出 transformer 在最新的 MOT 研究中逐渐具备竞争力，但仍然落后于传统深度学习方法。

Jun, 2024

预训练目标如何影响大型语言模型在语言属性方面的学习？

本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响，通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练，并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小，这也对语言信息熵理论的主流观点提出了疑问。

Mar, 2022

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

自监督变形器中抽象表征的形成与功能

通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制，我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象，这些抽象表现为低维流形，其中语义相关令牌的嵌入短暂地收敛，从而实现了对下游计算的泛化。我们还引入了一种语言增强架构（LEA），旨在鼓励网络表达其计算过程，发现 LEA 发展了一种易于解释的以抽象为中心的语言，使我们更容易访问和指导网络的决策过程。

Dec, 2023