BriefGPT.xyz
Ask
alpha
关键词
behavior regularization
搜索结果 - 4
高效的二阶段线下深度强化学习与偏好反馈
在这项工作中,我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现,在线下 PBRL 设置中应用两阶段学习存在挑战,即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这
→
PDF
6 months ago
离线强化学习的状态感知邻近悲观算法
本文提出了一种基于状态感知的近端悲观算法(SA-PP),通过利用学习策略与离线数据集之间的折扣静态状态分布比率,在状态级别上调节行为正则化的程度,以实现更合适的悲观学习,为此还提出了一种名为状态感知保守 Q-Learning(SA-CQL)
→
PDF
2 years ago
具有 Fisher 散度批判正则化的离线强化学习
该篇研究提出了一种新颖的离线强化学习算法 - Fisher-BRC,它使用神经网络学习参数,将既有离线数据的行为策略与网络学习的行为策略结合起来,实现了更快的收敛速度和更好的表现。
PDF
3 years ago
FOCAL:通过距离度量学习和行为规范实现高效完全离线的元强化学习
本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法
→
PDF
4 years ago
Prev
Next