基于解释的微调使模型对虚假线索更加鲁棒

May, 2023

基于解释的微调使模型对虚假线索更加鲁棒

Explanation-based Finetuning Makes Models More Robust to Spurious Cues

Josh Magnus Ludan, Yixuan Meng, Tai Nguyen, Saurabh Shah, Qing Lyu...

TL;DR本文提出了基于解释的微调作为一种缓解大型语言模型依赖错误相关的新颖通用方法，并在人工构建的训练集上微调模型，使其更加强壮。与标准微调不同，我们不仅仅针对输入进行预测，还微调模型以生成支持其答案的自由文本解释。与标准微调相比，我们的方法在四个分类任务中使模型对伪线索具有明显更强的稳健性。此外，我们的方法同样适用于由模型生成的解释，暗示了其在更多数据集上的适用性。

Abstract

large language models (LLMs) are so powerful that they sometimes learn correlations between labels and features that are irrelevant to the task, leading to poor generalization on out-of-distribution data. We propose exp

large language models finetuning spurious correlations explanation-based robust

发现论文，激发创造

通过解释一致性微调实现一致的自然语言解释

大语言模型经常生成有说服力和流畅的解释，但与人类不同，它们在不同输入上生成的解释通常不一致。本文提出了一种解释一致性微调的方法，通过对经过精心构造的合理解释的合成数据进行微调，使得大语言模型在相关示例上生成更一致的自然语言解释。这种方法在各种领域的问答数据集上获得了 10.0% 的相对解释一致性改善，并且在 7 个未在微调过程中使用的外部数据集上实现了 4.5% 的相对泛化改进。

Jan, 2024

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

展现操作方式：解释在细调语言模型中的作用

我们的研究证明了使用解释来进行微调以提高语言模型性能的显著效益。与提示相比，微调允许模型在训练阶段学习和更新参数。我们将微调应用于包含输出解释而非仅呈现答案的数据中的各种规模的语言模型。即使是具有 6000 万参数的较小语言模型也从该方法中获益良多。有趣的是，我们的结果表明详细解释对较小的模型比大模型更有益处，后者几乎从任何形式的解释中获得同样的优势，无论其长度是多少。此外，我们证明包含解释使模型能够解决无法在没有解释的情况下解决的任务。最后，我们认为尽管添加解释具有挑战性，但包含解释的样本不仅减少了训练所需的数据量，还促进了模型的更有效泛化。总之，我们的研究结果表明，使用解释进行微调显著增强了大型语言模型的性能。

Feb, 2024

探索语言模型在文本分类中的概念层次上的伪相关性

我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差，然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性，并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。

Nov, 2023

OPT-R：探索解释在精调和提示中对大型语言模型推理能力的作用

本文对大型语言模型（LLMs）的推理能力进行了全面调查，重点研究了 Open Pretrained Transformers（OPT）模型作为此类模型的代表。通过在精心筛选的推理语料库上微调三种不同大小的 OPT，我们评估了所有模型在来自 SUPER-NATURAL-INSTRUCTIONS 基准测试的 57 项跨领域任务上的性能。研究发现，在微调时将解释纳入 fewshot 范例对模型的性能没有显著影响，而在提示和微调过程中逐步加入解释会略微但一致地提高分类准确性。

May, 2023

使用人类解释监督模型关注力以强化自然语言推理

探究利用自然语言解释来监督模型的注意力权重，促使其更集中于解释中的关键词，从而提高模型性能，此方法的实验表明，这种改进可以适用于其它 NLI 数据集

Apr, 2021

通过微调和上下文学习引导大型语言模型进行机器翻译

通过使用适配器进行微调，我们可以改善大型语言模型在机器翻译方面的性能，并减少训练参数量，同时保持微调模式的效果，解决了少样本学习和过度生成的问题。

Oct, 2023

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

基于自我指导的事实验证：解释性和泛化性挖掘

本研究提出了一种基于自我指导的微调方法，通过数据增强和改进的 DPO 微调，实现了在保持准确性的同时，生成流畅的解释文本，并展示出高泛化性能。

May, 2024

场景和方法用于情境化的自然语言解释

利用大型语言模型，针对不同用户情境生成自然语言解释，并通过定量评估展示适应程度。我们收集了一个基准数据集，包括 100 个解释对象，每个对象都与针对三个不同受众类型（如教育工作者、学生和专业人员）的解释配对，使我们能够评估解释在特定信息需求和背景下让这些多样化群体（如学生、教师和家长）满意的程度。通过预训练语言模型，在不同大小的预训练语言模型上，我们考察了三类提示方法：基于规则的提示，元提示和上下文学习提示。我们发现：1）语言模型可以生成与目标情境更准确对齐的提示产生的解释；2）通过提示 “您是一个乐于助人的助手…” 来明确建模 “助手” 角色不是定位自然语言解释任务的必要技术；3）只有上下文学习提示能够帮助语言模型学习演示模板，但无法提高它们的推理性能。该基准数据集及我们的分析有助于未来生成情境化自然语言解释的研究。

Jun, 2024