language model alignment | BriefGPT

关键词language model alignment

搜索结果 - 8

探索性偏好优化：利用隐含的 Q * 近似进行样本高效的强化学习优化
强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO（Explorato
PDFa month ago
语言模型对齐的自我游戏偏好优化
提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。
PDF2 months ago
自我博弈语言模型的正则化研究
本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并
PDF3 months ago
语言模型对齐的渐近性
在这篇论文中，我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上
PDF3 months ago
机器语言模型中对齐和有用性之间的权衡
语言模型对齐是 AI 安全的重要组成部分，通过增强期望行为和抑制非期望行为，使人类和语言模型之间进行安全交互。在这篇论文中，我们研究了对齐增加和模型有用性减少之间的权衡，并提出了一个理论框架，以在实证上证明其相关性。我们发现，当表示工程向量
PDF5 months ago
改进奖励建模的西至 N: 合成优先性生成
我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研
PDF5 months ago
ULMA：统一语言模型对齐与演示与逐点人类偏好
发展了一种称为点对点 DPO 的偏好学习方法，该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足，并提供了同时处理人类演示和点对点优先数据的统一框架。
PDF7 months ago
前沿语言模型对敌对算术不具鲁棒性，或者说，我需要说些什么，让你同意 2+2=5？
我们介绍和研究对抗性算术问题，它为语言模型对齐提供了一个简单但具有挑战性的测试平台。我们提出了一种由自然语言组成的算术问题，其中在问题未完整时插入了一个任意的对抗字符串。即使在 1 位数加法问题的简单设置中，很容易找到能使所有测试模型（包括
PDF8 months ago