通过人类反馈进行提示优化
本文提出了一种自动优化提示技术(APO)来改进 Large Language Models(LLMs)的图灵能力,APO 采用数值梯度下降的方法来自动更改提示语并带来了很大的效率提升和预测性能的提升。
May, 2023
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题,并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后,我们提出一种主动选择提示以收集偏好数据的算法( exttt {APO}),在 Bradley-Terry-Luce(BTL)偏好模型下, exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明,在给定采样预算 T 的情况下,通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来,我们提出了一种计算高效的 exttt {APO} 的批处理版本,并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案,以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。
Feb, 2024
通过结合人类设计的反馈规则,采用基于遗传算法的大语言模型驱动的离散提示优化框架,实现了对多步任务中自动提示的改进,相比现有的方法,平均有 27.7% 和 28.2% 的改善效果。
Feb, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。
Nov, 2023
本文提出了一种用于自动化生成和优化大型语言模型中提示的新框架 AutoHint,该框架利用了输入 - 输出演示派生的丰富指示来优化原始提示。通过将当前 LMM 的丰富指示嵌入 LLM 训练中,该方法可以大大提高多个任务的准确性。
Jul, 2023
通过对提示优化进行全面的实证研究,我们得出两个主要结论:相对全局最优解的罕见性,局部最优解普遍存在且表现良好(洞见一)。输入域的选择对于识别表现良好的局部最优解起着重要作用(洞见二)。受到这些洞见的启发,我们提出了一种新的算法 —— 局部零阶提示优化(ZOPO),将基于神经切向核的推导高斯过程纳入标准零阶优化中,以高效搜索在提示优化中表现良好的局部最优解。通过广泛的实验证明,ZOPO 在优化性能和查询效率方面优于现有基线模型。
Mar, 2024
构建了一种名为 HMAW 的分层多代理流程,不受人类限制和培训,并能适应底层任务的微妙之处,通过创建详细且合适的提示,进一步提高当前 LLMs 的性能。
May, 2024
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性,并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。
Feb, 2024