BriefGPT.xyz
Ask
alpha
关键词
multi-objective rl
搜索结果 - 5
关于马尔可夫奖励在表达多目标、风险敏感和模态任务方面的限制
本文研究了强化学习中标量马尔可夫奖励函数的表达能力,并确定了其所能表达的局限性。具体而言,我们关注三类强化学习任务;多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别,我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分
→
PDF
5 months ago
政策规范化的离线多目标强化学习
本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置,以达到上述目标。然而,在离线多目标强化学习设置中,存在新的挑战,即偏好不一致演示问题。我们提出了两个解决方案
→
PDF
6 months ago
超越一种偏好适用于所有情况:多目标直接偏好优化
多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比 MORLHF 更少 3 倍的计算资源。
PDF
9 months ago
进化强化学习:综述
这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法,涉及强化学习中的关键研究领域及未来方向,为研究者和实践者提供参考和资源。
PDF
a year ago
可证明符合性引导的强化学习
本文展示了一种使用利用现有的 normative supervisor 框架的方法,通过 MORL 技术以平衡非道德目标和避免违规的道德目标,在自主代理中实现安全、道德或合法行为,且不受惩罚强度大小的影响。
PDF
2 years ago
Prev
Next