policy regularization | BriefGPT

关键词policy regularization

搜索结果 - 5

ICML自适应优势引导的策略规范化用于离线强化学习
通过自适应优势导向的策略规范化方法（A2PR），我们能够在离线强化学习中解决样本分布外问题，通过生成匹配数据点分布的样本，有效地选择高优势动作，并在保持一定保守性的同时改进行为策略，从而达到改进策略的理论保障，以及有效减轻价值函数高估的性能
PDFa month ago
拓展你的极限：基于实际场景的强化学习用于机器人运动的持续改进
基于 APRL 的深度强化学习 (RL) 框架，使四足机器人能够在现实世界中通过高效的训练学会行走，并且不断改进适应各种挑战性情况和动力学的变化。
PDF8 months ago
ICML通过数据集约束的政策正则化用于离线强化学习
本文提出了一种名为 PRDC 的政策正则化算法，该算法通过数据集约束从离线强化学习的数据集中学习最佳政策，能够缓解价值高估问题并在一组机器人应用上实现了最先进的性能．
PDFa year ago
离线强化学习的极简主义方法
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。
PDF3 years ago
针对状态观测的鲁棒深度强化学习对抗扰动
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
PDF4 years ago