RankPrompt: 逐步对比使语言模型成为更好的推理者
对比提示(CP)显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能,无需手动设计少数训练示例,与当前最先进的 GPT-4 模型相比,在 GSM8K 的准确率从 35.9% 提升至 88.8%,在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT,还能与现有的提示方法无缝集成,得到改进或相当的结果。
Mar, 2024
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR),通过使用适当的排名提示,减少了 LLMs 的负担,使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。
Jun, 2023
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性,证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。
Feb, 2024
我们通过大规模实验和分析发现,零 - shot 大语言模型的排名方法的差异不仅来源于排名算法和模型骨干,而且还很重要的来自于提示元素和用词的选择,实际上,我们在实验中发现,这些后者对排名器的有效性产生的影响有时比实际的排名算法更大,而且在考虑到提示的变化时,排名方法之间的差异变得更加模糊。
Jun, 2024
通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM),使模型输出更符合人类偏好。我们提出了重复排序方法,通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示,我们从 7 个顶级多语言 LLM 生成了响应,并让 GPT-4 对每个响应进行了五次排名。通过在六种语言中在 MT-Bench 聊天基准测试中进行评估,我们的方法优于在所有可用提示上进行训练的标准实践。我们的工作凸显了 RLAIF 数据集生成中质量与数量的权衡,并提供了一个增强数据集和模型质量的可叠加策略。
May, 2024
本文提出了一种基于大型语言模型的 PromptRank 方法,可用于多跳 QA 的少样本重新排序,该方法构建一个基于指令的提示,在给定问题和路径提示的条件概率下计算给定问题和文档路径之间的相关性得分,并且在 HotpotQA 数据集上具有强大的检索性能。
May, 2022