有效性视野解释随机环境中的深度强化学习表现
使用 BRIDGE 数据集发现,深层强化学习中有效的 Horizon 为 PPO 和 DQN 算法的表现提供了更好的度量;并且可以预测使用奖励塑形或预训练探索策略的影响。
Apr, 2023
本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响,并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。
Jul, 2023
本文提出了一种适用于高维、噪声、连续的黑盒动态模型系统的新的逆强化学习算法 —— 逐步退化逆强化学习(RHIRL)以解决 IRL 面临的可扩展性和鲁棒性两大挑战。实验表明,RHIRL 在大多数情况下优于其他主流 IRL 算法,并且我们还证明了其累积误差随任务持续时间的线性增长。
Jun, 2022
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。
May, 2018
通过统计学习理论的框架,我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀,进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界,并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。
Oct, 2023
在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制问题上,这些方法在减少时间的同时仍能实现接近最优的平均回报。
May, 2024
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。
May, 2019
提出了一种新的算法类,仅需要解决一次 MDP 就能恢复专家策略,在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数,可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。
Aug, 2020