CausalLM 不适用于上下文学习

Aug, 2023

CausalLM is not optimal for in-context learning

Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut

TL;DR本文以理论方法分析了前缀语言模型（prefixLM）和因果语言模型（causalLM）在一定参数构建下的收敛行为，理论和实证结果表明，前缀语言模型（prefixLM）在线性回归问题中收敛至最优解，而因果语言模型（causalLM）的收敛动态遵循在线梯度下降算法，其在样本数无限增长情况下无法保证最优解，同时经实验验证了因果语言模型（causalLM）在所有设置下表现不如前缀语言模型（prefixLM）。

Abstract

Recent empirical evidence indicates that transformer based in-context learning performs better when using a prefix language model (prefixlm), in which in-context samples can all attend to each other, compared to

transformer prefixlm causallm convergence behavior linear regression

发现论文，激发创造

解决因果语言模型中上下文示例的顺序敏感性问题

我们提出了一种无监督的微调方法，称为信息增强和一致性增强方法，以减少在背景上下文示例的顺序敏感性，并展示出强大的泛化能力，特别是当演示示例来源于与训练阶段不同的池，或者当背景上下文示例数量与训练期间使用的数量不同时。

Feb, 2024

基于 Transformer 的因果语言模型进行聚类

通过对合成数据集的分析，我们发现大规模语言模型通过将数据在其隐藏空间内进行聚类学习特定任务的信息，并且这个聚类过程在学习过程中动态演化，从而帮助模型处理未知的实例。

Feb, 2024

Conformer LLMs -- 卷积增强的大型语言模型

本文将卷积层和 Transformer 这两个流行的神经网络块与大型语言模型（LLMs）进行整合。通过使用因果卷积滤波器和 Transformer 将潜在表示的局部和全局依赖相结合，取得了显著的性能提升。这项工作展示了一种强大的语音架构，可以在语言建模的大规模应用中进行整合和适应。

Jul, 2023

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

变形金刚因果语言建模的元学习视角

我们通过解释 Transformer 架构内部可能发生的内部优化过程，建立了一种元学习视角，从而理解了 Transformer 架构在因果语言建模任务中的训练过程。此外，我们通过实验和对真实数据的理论分析，发现并探索了 Transformer 基于因果语言模型中学习到的标记表示的一种特殊特征。

Oct, 2023

后缀检索增强语言建模

本文提出了一种名为 SUREALM 的新型语言模型，它采用后缀检索技术，以自回归方式模拟双向上下文效果，并在 DSTC9 口语对话语料库上进行了评估，与竞争基线相比，在验证和测试集上显示出很好的词困惑度降低。

Nov, 2022

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

因果关系：大型语言模型能真正理解因果关系吗？

提出了一种新颖的架构称为 “具有反事实分析的上下文感知推理增强框架”，通过将显式和隐式因果推理相结合，利用 ConceptNet 和反事实语句来提高因果推理和可解释性，进一步提供对因果关系的深度理解和促进可解释性。

Feb, 2024