变形金刚因果语言建模的元学习视角

Oct, 2023

变形金刚因果语言建模的元学习视角

A Meta-Learning Perspective on Transformers for Causal Language Modeling

Xinbo Wu, Lav R. Varshney

TL;DR我们通过解释 Transformer 架构内部可能发生的内部优化过程，建立了一种元学习视角，从而理解了 Transformer 架构在因果语言建模任务中的训练过程。此外，我们通过实验和对真实数据的理论分析，发现并探索了 Transformer 基于因果语言模型中学习到的标记表示的一种特殊特征。

Abstract

The transformer architecture has become prominent in developing large causal language models. However, mechanisms to explain its capabilities are not well understood. Focused on the training process, here we establish a

transformer architecture causal language models meta-learning inner optimization process norms of learned token representations

发现论文，激发创造

基于 Transformer 的因果语言模型进行聚类

通过对合成数据集的分析，我们发现大规模语言模型通过将数据在其隐藏空间内进行聚类学习特定任务的信息，并且这个聚类过程在学习过程中动态演化，从而帮助模型处理未知的实例。

Feb, 2024

基于梯度下降的 Transformer 网络学习因果结构

通过梯度下降优化算法，变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图，从而学习了因果结构。

Feb, 2024

元学习变形金刚进行上下文通用学习

本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Dec, 2022

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

基于 Transformer 的语言模型内部工作原理初探

这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍，重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述，揭示了该领域中流行方法和活跃研究方向之间的联系。

Apr, 2024

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

基于 Transformer 的方法：从非结构化文本到因果知识图谱

本文介绍了基于 transformer 的 NLP 架构，该架构可以联合提取包括语言描述、定性因果关系、约束限定词、词义在内的知识图谱，以及说明其在真实世界中的准确性和实用性。

Feb, 2022

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

基于 Transformer 的语言模型

本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构，其中 Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11，即比最先进的 LSTM 提高了 12.0 perplexity 单位。

Apr, 2019