Few-shot 提示在文本推理中解释的不可靠性

May, 2022

Few-shot 提示在文本推理中解释的不可靠性

The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning

Xi Ye, Greg Durrett

TL;DR本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果，发现对于涉及文本推理的自然语言推理和问答任务，使用不同样式的说明对 OPT、GPT-3（davinci）和 InstructGPT（text-davinci-001）等四个 LLM 的性能仅会带来小至中等的准确性提高，而 text-davinci-002 能够带来更实质性的提高，并且 LLM 产生的说明可能不支持、甚至与模型预测不一致，但这些说明仍有助于验证模型的预测，在此观察基础上，文章通过训练校准器使用自动提取的评分评估说明的可靠性，从而在全部数据集上实现后处理性能的提高。

Abstract

Does prompting a large language model (LLM) like gpt-3 with explanations improve →

large language model gpt-3 explanations in-context learning natural language inference

发现论文，激发创造

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

利用无标签数据进行上下文学习的解释选取

本文提出了一种黑盒优化解释注入的提示方法，以提高文本推理任务的性能，在问题回答、数学推理和自然语言推理等四个文本推理任务中实现了有效的促进效果。

Feb, 2023

OPT-R：探索解释在精调和提示中对大型语言模型推理能力的作用

本文对大型语言模型（LLMs）的推理能力进行了全面调查，重点研究了 Open Pretrained Transformers（OPT）模型作为此类模型的代表。通过在精心筛选的推理语料库上微调三种不同大小的 OPT，我们评估了所有模型在来自 SUPER-NATURAL-INSTRUCTIONS 基准测试的 57 项跨领域任务上的性能。研究发现，在微调时将解释纳入 fewshot 范例对模型的性能没有显著影响，而在提示和微调过程中逐步加入解释会略微但一致地提高分类准确性。

May, 2023

基于大规模语言模型的不确定性感知可解释推荐

为了提高用户满意度和建立信任，推荐系统内提供解释尤为重要，特别是对为用户定制的推荐物品进行解释。在这个研究领域中，主要方法是生成基于文本的解释，主要侧重于应用大型语言模型（LLMs）。然而，由于时间限制和计算资源限制，对于可解释性推荐来说，细化 LLMs 的工作并不可行。作为替代方案，当前的方法是训练提示而不是 LLMs。在这项研究中，我们开发了一个模型，利用用户和项目输入的 ID 向量作为 GPT-2 的提示。我们在多任务学习框架内使用联合训练机制来优化推荐任务和解释任务。这种策略能更有效地探索用户的兴趣，提高推荐的效果和用户满意度。通过实验，在 Yelp、TripAdvisor 和 Amazon 数据集上，我们的方法在解释能力评估指标上分别达到 1.59 DIV、0.57 USR 和 0.41 FCR，相比于四种现有技术，表现出卓越性能。此外，我们发现所提出的模型能够确保在这三个公共数据集上文本质量的稳定。

Jan, 2024

语言模型能否从上下文中的解释中学习？

通过对 40 个具有挑战性的任务提出带有答案解释的问题及各种匹配控制解释，我们发现解释可以提高大型语言模型在具有挑战性的任务上的零次和少量样本的表现，并且仅大型模型有益处。

Apr, 2022

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

有效上下文学习的互补解释

本文研究大型语言模型在上文环境学习中如何利用解释，通过研究计算跟踪和语言表达对影响解释的有效性，我们发现两种因素对于解释的有效性都起重要作用，同时提出了一种基于最大边际相关性的样本选择方法，以构建既相关又补充的样本集，成功提高了大型语言模型在多个真实世界任务上的上下文学习性能。

Nov, 2022

利用自然语言解释提高自然语言推理的上下文学习鲁棒性

通过加上自然语言解释，人工智能模型在各种任务中有了显著提升，但在遇到对抗性输入时，效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性，并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法，表现更好。通过对五种常见的大语言模型进行评估，我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外，我们还发现之前能有效提高 ICL 性能的提示选择策略，在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。

Nov, 2023

通过提示提高大型语言模型的心理理论表现

本研究探讨在理解人的常识推理问题中，如何通过上下文学习和人类反馈和增强学习的方法来提高 LLMs（大型语言模型）的表现，结果表明适当的提示可以增强 LLMs ToM（心理理论）推理能力，这也强调了 LLMs 认知能力的依赖于上下文。

Apr, 2023