零样本通识推理的提示工程和校准

ICLRApr, 2023

零样本通识推理的提示工程和校准

Prompt Engineering and Calibration for Zero-Shot Commonsense Reasoning

Chenkai Ma

TL;DR在小型语言模型上研究及评估大型语言模型的理解任务，包括多项选择常识推理，结果显示各种策略对不同的模型有利，但联合效果大多为负。

Abstract

Prompt engineering and calibration make large language models excel at reasoning tasks, including multiple choice commonsense reasoning. F

large language models calibration multiple choice commonsense reasoning smaller language models commonsense reasoning benchmarks

发现论文，激发创造

大型语言模型是对比推理者

对比提示（CP）显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能，无需手动设计少数训练示例，与当前最先进的 GPT-4 模型相比，在 GSM8K 的准确率从 35.9% 提升至 88.8%，在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT，还能与现有的提示方法无缝集成，得到改进或相当的结果。

Mar, 2024

提供常识推理任务的对比解释

本研究证明了在使用预训练语言模型进行通识推理任务时，使用对比性的解释来完成解释提示可以提高性能并获得更准确的结果，同时提高人类可理解性。

Jun, 2021

生成式知识促进常识推理

通过从语言模型中产生知识并将其作为额外输入用于回答问题，我们开发了一种生成知识提示方法，它不需要针对知识集成的任务特定监督，也不需要访问结构化的知识库，并在四个常识推理任务中提高了大规模、最先进模型的性能。这凸显了大规模语言模型作为提高常识推理的外部知识的灵活来源。

Oct, 2021

利用大语言模型优化小数据集的 Few-shot 推理表现

本研究提出了一种名为 Prompt Space 的新的有效方法，利用文本嵌入来获取基向量并构建表示所有提示的空间，成功解决当前方法缺乏理论基础的问题，取得了在十个公共推理基准上的显著优异表现，为在 LLMs 中进行简单而有效提示的选择提供了牢固而基本的理论框架。

Jun, 2023

大型语言模型也是优秀的原型常识推理器

通过优化任务提示和生成多样化的链式推理和知识，该研究在 ProtoQA 数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Sep, 2023

评估零样本通识推理的置信度而非困惑度

本文提出一种新的通识推理度量标准 ——Non-Replacement Confidence (NRC)，通过 Replaced Token Detection (RTD) 预训练目标在 PLMs 上进行推理，提高了两个通识推理基准数据集和七个通识问题回答数据集的零 - shot 表现。

Aug, 2022

理解提示工程不一定需要重新思考普遍化

通过经典的 PAC-Bayes 界限解释所产生的离散提示的性能表现良好，这为手动设计和生成过程中引导工程实践提供了可能的理论解释。

Oct, 2023

提示工程师的提示工程

通过构建元提示（meta-prompt）从而更有效地引导大型语言模型（LLMs）进行自动提示工程，进而优化其性能。

Nov, 2023

克服提示扰动敏感性的零样本方法

该研究旨在在零 - shot 设置中找到高质量的 prompt。我们的自动化方法使用位置、推理和释义技术生成多个与基本 prompt 类似的 prompt，然后使用新的度量标准对这些 prompt 进行排名。我们实验证明，排名靠前的 prompt 是高质量的，显著优于基本 prompt 和使用 few-shot learning 生成的 prompt，适用于句子级情感分类任务。

May, 2023

推动 Transformer 在常识推理中的能力

介绍了如何利用当前的机器学习方法，通过知识迁移、模型集成和引入配对对比目标等方法，改进通用预训练语言模型在常识推理任务中，取得超过 15％的配对准确度和超过 8.7％的标准准确度的绝对增益。

Oct, 2023