policy generalization | BriefGPT

关键词policy generalization

搜索结果 - 6

离线强化学习中，价值学习真的是主要瓶颈吗？
离线强化学习的性能问题一直存在着，本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究，发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响，同时，离线强化学习的性能问题主要还是由训练数
PDF23 days ago
ICCV通过基于冲突感知的梯度协调增强来改进视觉强化学习中的泛化性能
在视觉强化学习中，学习具有出色泛化能力以适应未知环境仍然具有挑战性但至关重要。本文提出了一种名为 CG2A 的通用策略梯度优化框架，将增强组合更好地融入视觉强化学习算法来解决泛化偏差问题，通过发展梯度协议求解器和引入软梯度手术策略来改善颇具
PDFa year ago
价值引导数据过滤的跨域策略适应
该研究提出了一种基于价值一致性的在线动态适应学习算法 —— 价值引导数据过滤算法（VGDF）。实验结果表明，与之前的方法相比，在不同领域的各种环境中，VGDF 算法在策略概括上表现更为优异。
PDFa year ago
ICMLSaute RL: 使用状态增广实现近乎绝对安全的强化学习
Saute MDP can remove safety constraints by augmenting state-space and reshaping objective, allowing for policy generaliz
PDF2 years ago
ICLR环境探测交互策略
通过引入 EPI-policy，该研究提出了一种新的强化学习策略，可在新环境中提取环境特定信息，并将其作为附加输入提高任务特定策略的性能，并基于转移预测能力的奖励函数进行学习。在新环境中，这种 EPI 策略比通常使用的策略泛化方法要有效得多
PDF5 years ago
学习无关变量以实现策略泛化
本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。
PDF6 years ago