off-policy rl algorithms | BriefGPT

关键词off-policy rl algorithms

搜索结果 - 5

大规模推荐系统中多任务融合的离策略增强学习算法定制化
为了解决多任务融合中的严重问题，提出一种定制的离策略强化学习算法，该算法整合了离策略强化学习模型和在线探索策略，大幅度提高了性能，并采用渐进训练模式进一步提升了模型的性能。
PDF3 months ago
增强强化学习的泛化性和可塑性以提高样本效率
通过对 off-policy RL 算法强化学习算法进行实证分析，我们发现，Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率，具有较高的泛化性和可塑性。
PDFa year ago
质量多样性强化学习的近端策略梯度树形结构
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。
PDFa year ago
离线强化学习的支持策略优化
本文提出了一种名为 SPOT 的方法，它是基于密度支持约束的理论正式化，采用了基于 VAE 的密度估计器来明确建模行为策略的支持集，并提出了一个简单而有效的基于密度的正则化项，可非侵入地插入到现成的 off-policy RL 算法中。SP
PDF2 years ago
数据增强下的卷积神经网络和视觉 transformer 促进深度 Q 学习稳定性
研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因，并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中，我们的方法极大地提高了 ConvNets
PDF3 years ago