BriefGPT.xyz
大模型
Ask
alpha
关键词
robust rl
搜索结果 - 3
显式利普希茨值估计增强策略对扰动的稳健性
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表
→
PDF
a month ago
具有双重鲁棒性的安全强化学习
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。
→
PDF
8 months ago
关于实用的强化学习:可证明的鲁棒性、可扩展性和统计效率
本文旨在研究多种强化学习方法如鲁棒性 RL,分布式 RL 和离线 RL,并为每个方法提供算法以及未来的相关研究方向。
PDF
2 years ago
Prev
Next