数据有效的强化学习并发信用分配
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
智能代理应该是综合性的,能够快速适应和推广不同的任务,提出了一种新的模型类别 - 广义占据模型(GOM),它在保留模型强化学习的综合性的同时避免累积误差,通过直接建模长期结果,GOM 既避免了累积误差,又在任意奖励函数下保持了综合性。
Mar, 2024
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题,当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法,通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖假设下具有强大的计算和样本复杂度保证。此外,我们的方法易于实现,并且不需要关于覆盖比例(甚至上界)的先验知识,这使其成为迄今为止已知的最优算法。
May, 2024
本文提出了一种新的基于探索者轨迹的探索策略,使用局部自避步态生成方法,结合合适的状态平均距离,来为稀疏奖励的连续状态和行动空间提供短时记忆,实现高效的环境探索。
Dec, 2020
通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外,我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。
Feb, 2024
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
通过受限的强化学习解决多智能体分配问题中的冲突要求,强调标准正则化技术的不足,提出了一种状态增强方法,通过代理利用对偶变量的振荡来在任务之间交替,同时通过通信网络协调多智能体的动作,消除了访问其他智能体状态的需要,从而提出了一种具有理论可行性保证的分布式多智能体分配协议,并通过监视的数值实验予以证实。
Jun, 2024
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
该论文研究覆盖条件在离线强化学习中的作用,并通过建立覆盖条件与在线强化学习之间的联系,证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外,提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。
Oct, 2022