- 用于无模型强化学习的多状态 TD 目标
提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法,该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合,实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。
- 偏置策略梯度方法的二阶收敛性初步分析
强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点,但应用于无限时限贴现设置的实际实现包括 Monte-Carlo 方法和演员 - 评论家方法,在使用有偏梯度估计器的梯度下降更新时,已有的结果只考虑了无偏梯度估计器。我们通过利用非凸 - 使用演员 - 评论算法和 ReLU 网络合成程序策略
在这篇论文中,我们展示了使用 actor-critic 算法将从 actor-critic 算法学习到的策略转化为以程序形式编码的策略的连接,以此避免了需要使用特定于 PIRL 的算法的问题。实证结果表明,这种转化方法能够学习出简短而有效的 - 最大熵异质代理镜像学习
本文提出了一种新的理论框架 MEHAML,利用最大熵原理设计最大熵 MARL Actor-Critic 算法,证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡(QRE)的所需属性,实验结果表明,在三个基准测试中,HASAC(软 - 利用深度强化学习进行无地图水空混合飞行器导航与环境通用化
本文介绍了一种基于最新的 actor-critic 算法的新方法,以解决 HUAUV 的导航和介质转换问题。我们展示了一种双重评论家 Deep-RL 的方法,通过仅使用范围数据和相对定位来提高 HUAUV 的导航性能。我们的 Deep-RL - 演员优先的经验回放
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 ext - 连续时间下的 q 学习
本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式,研究了连续时间下的 Q 学习,构建了独立于时间离散化的 q 函数学习理论,并应用该理论设计了 actor-critic 算法来解决强化学习问题,同时通过模拟实验验证了算法性能。
- 强化学习智能体迭代设计的价值函数分解
本文介绍如何将价值分解结合到广泛类的演员 - 评论家算法中,以协助迭代代理设计过程,包括引入基于价值分解的工具和一种新的奖励影响度量方法。
- 针对离线强化学习的高斯混合评论家的重新访问:一种基于样本的方法
本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。
- ICML用超网络重新组合强化学习构建块
本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题,以提高学习效率和最终性能。实验表明,该方法可在不同的任务和算法中得到一致的改进。
- ICLR对抗引导的 演员 - 评论家算法
本研究提出使用敌对模型来促进探索及提高效率,从而解决各类探索困难且奖励很少的问题,发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。
- AAAI方差惩罚的在线与离线行为者 - 评论家算法
本研究提出了基于策略梯度方法的强化学习算法,通过对回报的方差进行惩罚,保证了算法的效果可靠,并在标准测试环境下展示了相应结果。
- 深度强化学习中的自动数据增强以实现泛化能力
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能 - AAAI基于深度径向基函数的连续控制值函数
介绍了一种使用深度径向基函数值函数的增强学习方法,称为 RBF-DQN, 可用于连续控制问题,显示其性能显著优于基于值函数的基准算法,且与最先进的演员批评算法具有竞争力。
- 强化学习的双重稳健离线策略演员 - 评论家算法
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性 - 参数化动作空间中的混合演员 - 评论家强化学习
介绍了一种混合体结构的深度强化学习算法,其包含多个并行的子演员网络和一个评论家网络,可以将结构化的行动空间分解为更简单的行动空间,并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。
- 用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法
研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。