双线性值网络
引入了新的框架 Bilinear Classes,用于增强学习的泛化,适用于通过函数逼近实现多种模型,其中 Best Known Sample Complexity Bounds 几乎与现有模型相匹配。
Mar, 2021
本文研究了具有二元向量动作的强化学习问题,提出了一种用于逼近二元向量动作价值函数的神经网络有效架构,该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算,并基于 Q-learning 提出了一种在线算法,论文还给出了基于方格世界和块障碍任务的实证结果,表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。
Dec, 2015
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本文介绍了一种新的强化学习(Reinforcement Learning)方法 ——Quasimetric Reinforcement Learning(QRL),该方法利用拟度量结构来学习最优值函数,与以往的方法不同,QRL 目标专门设计给拟度量,并提供了强有力的理论恢复保证。实证分析证明,相比于替代方案,QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能,在基于状态和基于图像的观察中都是如此。
Apr, 2023
本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。
Oct, 2022
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020
本文探讨了如何使用深度神经网络和政策梯度方法,通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题,取得了在高难度 3D 运动任务中显著的实证结果。
Jun, 2015
本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法, 具有收敛性和泛化性,并可以用于处理高度变化的奖励尺度和集成学习等任务。
Mar, 2022
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020