BriefGPT.xyz
Ask
alpha
关键词
off-policy rl algorithms
搜索结果 - 5
大规模推荐系统中多任务融合的离策略增强学习算法定制化
为了解决多任务融合中的严重问题,提出一种定制的离策略强化学习算法,该算法整合了离策略强化学习模型和在线探索策略,大幅度提高了性能,并采用渐进训练模式进一步提升了模型的性能。
PDF
3 months ago
增强强化学习的泛化性和可塑性以提高样本效率
通过对 off-policy RL 算法强化学习算法进行实证分析,我们发现,Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率,具有较高的泛化性和可塑性。
PDF
a year ago
质量多样性强化学习的近端策略梯度树形结构
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。
PDF
a year ago
离线强化学习的支持策略优化
本文提出了一种名为 SPOT 的方法,它是基于密度支持约束的理论正式化,采用了基于 VAE 的密度估计器来明确建模行为策略的支持集,并提出了一个简单而有效的基于密度的正则化项,可非侵入地插入到现成的 off-policy RL 算法中。SP
→
PDF
2 years ago
数据增强下的卷积神经网络和视觉 transformer 促进深度 Q 学习稳定性
研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因,并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中,我们的方法极大地提高了 ConvNets
→
PDF
3 years ago
Prev
Next