语言模型是否容易受到 PPO 攻击?
本研究提出了一种新算法 APA,利用估计的优势建立基于平方误差损失函数的算法进行优化,证明在使用单独的奖励模型作为评估器时,APA 明显优于 PPO,并且在控制模型初始策略与改进性能之间提供更稳定的形式控制,避免了模式崩溃、不稳定性和样本效率低等问题。
Jun, 2023
通过使用梯度优化的方法,我们提出了一种防御语言模型遭受恶意输入攻击的算法,Robust Prompt Optimization (RPO),有效地降低了对抗性攻击的成功率,并在黑盒模型中表现出了良好的转移能力。
Jan, 2024
通过使用奖励模型和 Proximal Policy Optimization(PPO)来操控模型生成的输出 tokenizer 长度的新任务,实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。
Aug, 2023
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。
May, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
从偏好反馈学习的四个核心方面:偏好数据,学习算法,奖励模型和政策训练提示,我们系统地研究了这些组件对下游模型性能的影响,并提出了一种强偏好反馈学习的方法。研究发现,偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
Jun, 2024
利用深度强化学习算法的 PPOCoder 框架,将预训练编程语言模型与外部执行反馈相结合,用于自动化代码生成任务,并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。
Jan, 2023