从自注意力到马尔可夫模型:揭示生成变换器的动力学
通过马尔可夫链的角度研究变压器的序列建模能力,并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。
Feb, 2024
自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。
Mar, 2024
我们分析了大型语言模型(LLMs)如何表示上下文之外的单词,研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性,揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明,意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示,特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。
Mar, 2023
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。
Oct, 2023
通过使用语言模型并针对短文本会话任务进行培训策略的量身定制,提出了一个与短文本会话任务更加适配的关联提升变压器语言模型,并在多个参考文献中推断其相关性线索来进一步优化其查询表示,这在大中文数据集上证明了优越性。采用随机策略来减少生成通用响应。
Nov, 2019
本文针对单层的注意力机制和上下文混合模型,探究了 Prompt-tuning 的策略,并分析了 Prompt 在梯度下降过程中学到的规律和其在上下文中的表现,最终提出了有关 Prompt-tuning 的理论解释和实验验证。
Jun, 2023