- 利用转化和蒸馏框架实现合作多智能体强化学习的全局最优
本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题,并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在 - 马尔可夫潜势博弈中 Softmax 策略梯度的收敛性和劣质纳什均衡价格保证
本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性,在策略参数化方面,包括 tabular 和神经网络等。通过引入 POA 和平滑概念,给出了 POA 边界,并通过实验比较了不同方法的收敛速度和 POA。
- ICML合作多智能体强化学习中常见实践的重新审视
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策 - ICML大规模马尔可夫潜在博弈的独立策略梯度:更快收敛速率,函数逼近和游戏无关收敛
本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2),并在利用函数逼近的样本算法中,建 - 同伦策略镜像下降:策略收敛,隐含正规化和改进样本复杂度
提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时 - 状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析
本文研究离线策略演员 - 评论家算法的全局最优性和收敛速度,通过使用近似和随机更新步骤,避免了稀疏性带来的问题,并且在文中基于均匀收缩性质,去掉相关分析的限制条件。
- EMNLP通过选择有信息量的评论学习观点摘要器
本文研究了如何在大数据集上进行意见总结,并通过选择有信息量的评论子集并联合学习摘要生成器来解决这个问题。
- 多智体策略梯度方差解决
本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献,并采用优化基线的方式来降低方差,提出了一种解决多智能体 PG 方法效率下降的方案,并在 MuJoCo 和 StarCraft 场景下验证有效性。
- 一种用于稳定和高效强化学习的通用代理函数类
提出一种基于 FMA-PG 的泛用框架来构造 policy gradient 方法的代理函数,并保证了策略改进的性质,从而使得该框架下的算法不受策略参数化的影响,并且能够实现一些实现技术的改进。在简单的赌徒问题上,我们对 FMA-PG 实例 - 政策优化的贪婪算子:研究正向和反向 KL 散度
本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中,正反向 KL 散度的差异及其对策略改进的影响,进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证,同时提出许多策略梯度方法可作为近似策略迭代算法的实例,为进 - 自然策略梯度算法的线性收敛性
本文研究了应用于马尔可夫决策过程中的自然策略梯度算法,在此基础上提出具有自适应步长的改进方法,并通过实验比较不同变种的策略梯度方法。
- 竞争式强化学习的独立策略梯度方法
本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中,通过独立学习算法和政策梯度方法,证明了通过双时间尺度规则,两个代理的策略将收敛于游戏的极小值 - 最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL 中的表现;先 - CVPR2D 还是 3D? 自适应 3D 卷积选择用于高效视频识别
通过 Ada3D 条件计算框架,使用策略梯度方法和轻量级选择网络,实现对不同视频的实例特定 3D 使用策略的学习,以决定使用哪些帧和卷积层,从而实现对 3D 模型进行预测,即使在不同数据集上,也能够实现类似于现有 3D 模型的准确度,且需要 - 通过贪婪策略搜索实现 MRI 的实验设计
本文对快速磁共振成像技术进行实验设计,提出了基于策略梯度的学习方法,并发现简单的贪心算法可以在解决问题时达到与更一般的非贪心方法接近的效果,研究表明这种算法具有更高的适应性和决策能力。
- AAAI使用 REINFORCE 的高效样本强化学习
研究了 RL 中的 policy gradient methods,建立了 REINFORCE 算法的全局收敛理论,围绕梯度估计和采样效率等方面进行了研究。
- 有限 MDP 的策略梯度方法线性收敛性
本文重新审视了策略梯度法在有限状态和动作 MDPs 中的有限时间分析,并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。
- PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
- 基于因式策略的终身策略梯度学习:快速训练且不会遗忘
本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法,该方法可以直接训练终身函数逼近器,以便智能体在整个训练过程中从累积的知识中受益。本文表明,与单任务和学终身学习基线相比,我们的算法学习更快,收敛到更好的策略,并且在多种挑战性领域 - 策略梯度方法的操作符视角
本文通过引入操作符的概念,将传统的强化学习算法中的策略梯度方法如 REINFORCE 和 PPO 等转化成了操作符形式,从而更好地理解它们的原理,同时通过引入新的全局下限,进一步弥合了基于策略和基于价值的方法之间的差距,将 REINFORC - 统计高效的离线策略梯度
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法,在不需要参数假设的情况下实现了可行均方误差的渐进下界,并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后,我们证明了当我们朝着新的策略梯度方向迈出步伐时