解决因果语言模型中上下文示例的顺序敏感性问题

Feb, 2024

解决因果语言模型中上下文示例的顺序敏感性问题

Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models

Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He

TL;DR我们提出了一种无监督的微调方法，称为信息增强和一致性增强方法，以减少在背景上下文示例的顺序敏感性，并展示出强大的泛化能力，特别是当演示示例来源于与训练阶段不同的池，或者当背景上下文示例数量与训练期间使用的数量不同时。

Abstract

in-context learning has become a popular paradigm in natural language processing. However, its performance can be significantly influenced by the order of in-context demonstration examples. In this paper, we found that causal language models (CausalLMs) are more sensitive to this order

in-context learning causal language models order sensitivity unsupervised fine-tuning predictive consistency

发现论文，激发创造

CausalLM 不适用于上下文学习

本文以理论方法分析了前缀语言模型（prefixLM）和因果语言模型（causalLM）在一定参数构建下的收敛行为，理论和实证结果表明，前缀语言模型（prefixLM）在线性回归问题中收敛至最优解，而因果语言模型（causalLM）的收敛动态遵循在线梯度下降算法，其在样本数无限增长情况下无法保证最优解，同时经实验验证了因果语言模型（causalLM）在所有设置下表现不如前缀语言模型（prefixLM）。

Aug, 2023

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

重新思考演示的作用：何为情境学习的关键？

本研究分析显示：大型语言模型不需要准确的演示，而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此，揭示了语境学习的原理和作用方式，同时提出了新的问题，即能否仅仅通过推理来学习大型语言模型的更多内容。

Feb, 2022

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

示威活动对多语种场景学习的影响：多维度分析

通过多维度分析多语言上下文学习对不同模型、任务和语言的效果，发现演示的有效性在各个方面有显著差异，并且发现 Llama 2-Chat、GPT-3.5 和 GPT-4 对演示的质量基本不敏感。相反，精心设计的模板往往完全消除了某些任务和语言的演示效果，这表明可能高估了演示的重要性。我们的工作强调了在多个方面进行细致评估以更好地理解上下文学习的需求。

Feb, 2024

上下文学习的主动样本选择

通过示例展示了大规模语言模型通过上下文学习实现各种任务的强大能力，为解决示例选择的不稳定性问题，提出了一种基于强化学习的算法用于识别泛化策略，以选择最佳示例以提高模型性能和泛化能力。

Nov, 2022

逐步学习：通过课程学习增强上下文学习能力

演示排序是上下文学习中的重要策略，对大型语言模型的性能有显著影响。我们提出了少样本上下文课程学习（ICCL），一种简单但有效的演示排序方法，其在推理过程中逐渐增加提示演示的复杂性。通过设计三个实验来探讨 ICCL 的有效性、LLM 的 ICCL 能力形成机制以及排序主题的影响，实验结果表明，ICCL 在指导调整阶段对开源 LLM 有效。此外，与人类相比，LLM 对演示的难度层次辨别能力较弱。我们在此 https URL 上发布了我们的代码。

Feb, 2024

大语言模型上下文学习的主动学习原则

本文旨在探讨如何使用主动学习算法作为选择最佳演示文稿的方法来服务于上下文学习，对比了基于不确定性、多样性和相似性等各种标准的演示文稿选择算法，并表明相似性算法胜过其他所有方法，包括随机抽样和不确定性抽样。

May, 2023

噪声排除：测试预训练语言模型信息处理的鲁棒性

本研究通过让模型处理带有分散注意力内容的填空任务，检验了预训练语言模型利用关键上下文信息的能力；研究结果表明，模型往往只是依靠表面上与上下文有关的信息进行预测，而对于上下文语境的理解能力不及预期。

Sep, 2021

上下文学习的归纳偏置：重新思考预训练示例设计

该研究证明了预训练神经语言模型时通过将文本分成大小可处理的训练例子会引入偏差，导致预训练 NLM 可以模拟在同一训练示例中出现的文本片段之间比不同训练示例中出现的文本片段之间依赖性更强。此外，他们提出了一种名为 “kNN-pretraining” 的新算法，该算法通过将语义相关的非相邻句子包含在同一个预训练样例中来提高句子表示和开放领域问答能力。

Oct, 2021