部分输入基线表明自然语言推理模型可以忽略上下文

ACLMay, 2022

部分输入基线表明自然语言推理模型可以忽略上下文

Partial-input baselines show that NLI models can ignore context, but they don't

Neha Srikanth, Rachel Rudinger

TL;DR我们研究了最先进的 NLI 模型是否能够覆盖部分输入基线所做出的默认推断，并引入一个由紊乱的前提组成的评估集来检查 RoBERTa 模型对编辑内容的敏感性。我们的结果表明，尽管训练数据集存在技术性问题，但 NLI 模型仍然能够学习到依赖于上下文的条件和推理能力。

Abstract

When strong partial-input baselines reveal artifacts in crowdsourced nli datasets, the performance of full-input models trained on such

nli artifacts roberta datasets inferential reasoning

发现论文，激发创造

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022

重新思考演示的作用：何为情境学习的关键？

本研究分析显示：大型语言模型不需要准确的演示，而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此，揭示了语境学习的原理和作用方式，同时提出了新的问题，即能否仅仅通过推理来学习大型语言模型的更多内容。

Feb, 2022

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

大语言模型中上下文案例检索学习

本文提出了一种新的框架，通过训练密集检索器来识别高质量的上下文示例，进而提高大型语言模型（LLMs）的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能，而且具有良好的泛化能力。

Jul, 2023

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

BERTs 是生成上下文学习者

本文探讨了掩码语言模型的上下文学习能力，挑战了常见观点，即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术，使得 DeBERTa 能够作为一个生成模型进行操作，无需额外训练。我们的研究结果表明，DeBERTa 能够与甚至超过 GPT-3，后者以引入上下文学习范式而闻名。比较分析表明，掩码和因果语言模型的行为非常不同，它们在不同类别的任务上明显超越对方。这表明存在一个能充分利用两个训练目标优势的混合训练方法的巨大潜力。

Jun, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023