APEER：自动提示工程提升大型语言模型重排

Jun, 2024

APEER：自动提示工程提升大型语言模型重排

APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking

Can Jin, Hongwu Peng, Shiyu Zhao, Zhenting Wang, Wujiang Xu...

TL;DR通过自动提示工程算法 APEER，大型语言模型在信息检索中的零样本相关性排名取得了显著的性能提升，并展现出更好的跨任务和跨语言模型的可迁移性。

Abstract

large language models (LLMs) have significantly enhanced Information Retrieval (IR) across various modules, such as reranking. Despite impressive performance, current zero-shot relevance ranking with LLMs heavily

large language models information retrieval zero-shot relevance ranking automatic prompt engineering apeer

发现论文，激发创造

大型语言模型是人类水平的提示工程师

使用语言模型作自然语言指导的条件，我们提出了自动提示工程师（APE），通过搜索竞选一组精心设计的自动生成的提示中的最佳提示来优化指令来解决 NLP 任务中的性能问题，并实现对模型的更好的指导和性能提升。在 24 个任务中，通过自动产生的新指令，我们的 APE 方法可使性能提高，并在 19 个任务中的性能甚至好于人类注释者生成的指令。通过大量定性和定量分析，我们证明了 APE 的有效性。

Nov, 2022

提示工程师的提示工程

通过构建元提示（meta-prompt）从而更有效地引导大型语言模型（LLMs）进行自动提示工程，进而优化其性能。

Nov, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

长提示的自动工程化

我们研究了自动的长提示工程算法，证明了贪婪算法和遗传算法在搜索效率方面的优越性，并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明，该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升，突显了自动化提示设计对充分利用 LLMs 的能力的重要性。

Nov, 2023

大型语言模型中开发提示工程的潜力释放：综合回顾

该综述研究了快速建模在发挥大型语言模型的能力方面的关键作用，探讨了角色激励、单次指示、观点链、观点树等快速建模的基本原则和高级方法，并阐述了外部插件如何协助此任务并减少机器幻觉，强调了深入了解结构和代理角色在人工智能生成内容工具中的重要性，最后讨论了在教育和编程等领域中应用快速建模的实践和潜力。

Oct, 2023

大规模语言模型代理的自动提示工程规划

在这篇论文中，我们提出了一种名为 RePrompt 的新方法，通过从与 LLM 代理的交互中获取的聊天记录，逐步优化 LLM 代理的提示，从而使 LLM 在特定领域中学会规划，我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。

Jun, 2024

基于通信理论的大型语言模型的促进工程方法

大型语言模型的兴起改变了自然语言处理领域从单任务导向到全面的端到端多任务学习范式，其中基于大型语言模型的提示方法引起了广泛关注，尤其是由于提示工程的技术优势以及不同提示方法揭示的自然语言处理原理。本研究旨在通过建立通信理论框架来评述现有的提示工程方法，深入了解其中在四个典型任务中的发展趋势，并为未来的提示工程方法指明有前途的研究方向。

Oct, 2023

通过提示回归进行提示探索

基于大规模语言模型的广泛使用，提出了一种用于预测提示组合效果的框架 PEPR，并提供了简单方法用于选择有效的提示。在不同任务上，利用不同规模的开源语言模型对该方法进行了评估。

May, 2024

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

利用语言模型提示的多跳 QA 的少样本重新排序

本文提出了一种基于大型语言模型的 PromptRank 方法，可用于多跳 QA 的少样本重新排序，该方法构建一个基于指令的提示，在给定问题和路径提示的条件概率下计算给定问题和文档路径之间的相关性得分，并且在 HotpotQA 数据集上具有强大的检索性能。

May, 2022