BriefGPT.xyz
Ask
alpha
关键词
surrogate objective
搜索结果 - 3
限制下的强化学习中的反馈安全性
在安全关键的强化学习环境中,通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而,设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题,我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法,从而减轻评估
→
PDF
8 days ago
上下文优化在协变量漂移下的鲁棒方法:通过相交的 Wasserstein 球
在上下文优化中,通过观察不确定变量的历史样本和相关联的并发协变量,不知道它们的联合分布。在给定附加协变量观测情况下,目标是选择最小化某些操作成本的决策。这里的一个普遍问题是协变量偏移,其中新协变量的边际分布与历史样本不同,导致具有非参数或参
→
PDF
a month ago
PPO 算法中可能不需要使用比率剪裁
本文探讨了比例剪切 PPO 方法的缺陷,提出了一种名为 ESPO 的早停策略优化算法,通过在多个连续控制任务上的比较,发现 ESPO 显著优于 PPO,而且能够轻松扩展到使用多个工作器进行分布式训练。
PDF
2 years ago
Prev
Next