RankPrompt: 逐步对比使语言模型成为更好的推理者

COLINGMar, 2024

RankPrompt: 逐步对比使语言模型成为更好的推理者

RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Chi Hu, Yuan Ge, Xiangnan Ma, Hang Cao, Qiang Li...

TL;DR通过使用 RankPrompt 方法，LLMs 可以自我评级其回答，从而显著提高 ChatGPT 和 GPT-4 的推理表现。

Abstract

large language models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes.

large language models rankprompt logical errors reasoning performance automatic evaluations

发现论文，激发创造

大型语言模型是对比推理者

对比提示（CP）显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能，无需手动设计少数训练示例，与当前最先进的 GPT-4 模型相比，在 GSM8K 的准确率从 35.9% 提升至 88.8%，在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT，还能与现有的提示方法无缝集成，得到改进或相当的结果。

Mar, 2024

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

角色扮演引导的零样本推理的改进

通过角色扮演提示方法，在各种推理基准测试中展示了大型语言模型 (LLMs) 的推理能力的提升。

Aug, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

基于算法问题的 GPT-4 评测：对提示策略的系统评估

GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性，证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。

Feb, 2024

基于零样本 LLM 排名器的提示变体研究

我们通过大规模实验和分析发现，零 - shot 大语言模型的排名方法的差异不仅来源于排名算法和模型骨干，而且还很重要的来自于提示元素和用词的选择，实际上，我们在实验中发现，这些后者对排名器的有效性产生的影响有时比实际的排名算法更大，而且在考虑到提示的变化时，排名方法之间的差异变得更加模糊。

Jun, 2024

你确定吗？重新排名：为更好的偏好数据集进行重复排名

通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM)，使模型输出更符合人类偏好。我们提出了重复排序方法，通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示，我们从 7 个顶级多语言 LLM 生成了响应，并让 GPT-4 对每个响应进行了五次排名。通过在六种语言中在 MT-Bench 聊天基准测试中进行评估，我们的方法优于在所有可用提示上进行训练的标准实践。我们的工作凸显了 RLAIF 数据集生成中质量与数量的权衡，并提供了一个增强数据集和模型质量的可叠加策略。

May, 2024

利用语言模型提示的多跳 QA 的少样本重新排序

本文提出了一种基于大型语言模型的 PromptRank 方法，可用于多跳 QA 的少样本重新排序，该方法构建一个基于指令的提示，在给定问题和路径提示的条件概率下计算给定问题和文档路径之间的相关性得分，并且在 HotpotQA 数据集上具有强大的检索性能。

May, 2022