分析大型语言模型中的任务编码标记
通过对40个具有挑战性的任务提出带有答案解释的问题及各种匹配控制解释,我们发现解释可以提高大型语言模型在具有挑战性的任务上的零次和少量样本的表现,并且仅大型模型有益处。
Apr, 2022
本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制,发现情境学习从两个方面发挥作用:任务识别和任务学习,具有不同的性质和特点。
May, 2023
本文研究了大型语言模型LLMs的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在LLMs的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究LLMs的推理机制。
May, 2023
这篇论文通过检验表面重复现象的视角,定量地研究了文本生成中的表面特征对上下文学习的作用,并实证了一种被称为“令牌共现强化”的原则,强调了两个令牌在上下文共现下的关系。通过研究这些特征的双重影响,我们的研究揭示了上下文学习的内部机制和其失败的原因。这篇论文对于理解上下文学习及其潜在限制作出了重要贡献,并为这一令人兴奋的能力提供了新的视角。
Sep, 2023
通过对18个字段密集型任务进行全面实验,我们发现,针对这些任务,大规模语言模型在使用上下文学习的方法上存在三个主要问题:无法准确理解上下文、与人类任务模式理解不匹配、对长文本理解能力不足。然而,通过微调,大规模语言模型能够在这些任务上取得不错的表现,表明上下文学习的失败并非大规模语言模型本身的固有缺陷,而是现有对齐方法的局限性导致大规模语言模型无法通过上下文学习来处理这些复杂任务。我们希望本文的分析结果能促进对齐方法的发展,使大规模语言模型能够满足更加复杂的人类需求。
Nov, 2023
通过对注意力头的运行进行详细分析,我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系,从而推进了我们对transformers中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。
Feb, 2024
通过层次上的上下文遮蔽实验,我们证明了大型语言模型中存在一个任务识别点,该点将任务编码到输入表示中,不再需要注意上下文,同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系,利用这种冗余性可在提示5个示例时节省45%的计算量,任务识别在第14/32层达到,并且层次微调实验表明对于MT微调来说,最有效的层次是关键的任务识别层。
Mar, 2024
通过实证研究,我们在文中将ICL的整体表现分解为三个方面,即标签空间、格式和区分能力,并评估四种通用语言模型在各种任务中的性能。结果显示,虽然示范对于激发语言模型的区分知识的影响较小,但ICL对于调节标签空间和格式的表现具有显著效果,并能帮助语言模型按照期望的标签进行响应。此外,我们通过对检索机制的深入分析发现,检索最语义相似的示例明显提升了模型的区分能力。
Apr, 2024
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024