基于 Transformer 的因果语言模型进行聚类

Feb, 2024

基于 Transformer 的因果语言模型进行聚类

Transformer-based Causal Language Models Perform Clustering

Xinbo Wu, Lav R. Varshney

TL;DR通过对合成数据集的分析，我们发现大规模语言模型通过将数据在其隐藏空间内进行聚类学习特定任务的信息，并且这个聚类过程在学习过程中动态演化，从而帮助模型处理未知的实例。

Abstract

Even though large language models (LLMs) have demonstrated remarkable capability in solving various natural language tasks, the capability of an LLM to follow human instructions is still a concern. Recent works have shown great improvements in the →

large language models instruction-following capability transformer-based causal language model clustering data unseen instances

发现论文，激发创造

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

大型语言模型能学习独立因果机制吗？

利用因果关系的两个概念在大型语言模型中学习独立因果机制，通过引入路由方案实现网络的专业化，并采用最小化互信息目标训练一个独立模块来学习抽象和领域不变机制，从而改善抽象和因果推理任务的超越分布性能。

Feb, 2024

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023

变形金刚因果语言建模的元学习视角

我们通过解释 Transformer 架构内部可能发生的内部优化过程，建立了一种元学习视角，从而理解了 Transformer 架构在因果语言建模任务中的训练过程。此外，我们通过实验和对真实数据的理论分析，发现并探索了 Transformer 基于因果语言模型中学习到的标记表示的一种特殊特征。

Oct, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

基于约束的因果发现的大型语言模型

本文研究了大型语言模型在生成因果图方面的能力，通过将条件独立性查询作为 LLM 的提示并与 PC 算法的答案结合，提出了一种基于统计启发的投票模式来改善性能，并发现因果推理可以用于对概率查询进行合理解释，从而证明了基于知识的因果推理可能成为一种补充数据驱动因果发现的工具。

Jun, 2024