变形金刚因果语言建模的元学习视角
通过对合成数据集的分析,我们发现大规模语言模型通过将数据在其隐藏空间内进行聚类学习特定任务的信息,并且这个聚类过程在学习过程中动态演化,从而帮助模型处理未知的实例。
Feb, 2024
本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法,同时发现相比于标准模型,黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外,本文提出了一些实际操作手段,如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。
Dec, 2022
我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。
Oct, 2023
这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。
Apr, 2024
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
本文介绍了基于 transformer 的 NLP 架构,该架构可以联合提取包括语言描述、定性因果关系、约束限定词、词义在内的知识图谱,以及说明其在真实世界中的准确性和实用性。
Feb, 2022
利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响,通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。
Apr, 2024
文章提出了 CausaLM 框架,基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务,学习给定概念的反事实表示,用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型,可以减轻数据中固有的不良偏差。
May, 2020
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Architecture Search(CAS)通过迭代模型的精炼来找到一个有效的架构,实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11,即比最先进的 LSTM 提高了 12.0 perplexity 单位。
Apr, 2019