auxiliary rewards | BriefGPT

关键词auxiliary rewards

搜索结果 - 6

混合偏好优化：用辅助目标增强直接偏好优化
大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
PDFa month ago
通过指导学习发现技能
在无监督技能发现领域，有限的探索是一个主要挑战，而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力，最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而，我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此，我们提出了
PDF8 months ago
通过奖励函数优化进行行为对齐
通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。
PDF8 months ago
ICML用综合专业学习提高政策优化
本文提出了一种新的强化学习通用 - 专业训练框架，通过辅助奖励和权重克隆的方式，将先前的训练经历分为 “通用训练” 和 “专业训练”，以在不同环境下实现最佳政策学习。
PDF2 years ago
基于优势辅助奖励的分层强化学习
本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结
PDF5 years ago
相互对齐迁移学习
通过强化学习在模拟环境中训练机器人并结合补充奖励策略，与真实机器人进行进一步的微调来优化探索策略，实验结果表明，这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。
PDF7 years ago