- 一种可证明有效的无模型后验采样方法,用于情节强化学习
本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性 MDP 设置中,我们的算法产生的遗憾与现有 - ICML稀疏全局对比解释下的策略优化
本文提出了一种基于强化学习的框架,旨在通过稀疏的、易于理解的变化来改进现有的行为策略,以最小的改变获得尽可能多的利益。我们将最小的改变定义为原始策略与所提出策略之间的稀疏全局对比解释。在保持全局对比解释简短的约束条件下改进当前策略,并在离散 - 通过技能多样性利用近似符号模型进行强化学习
本文介绍了近似符号模型引导的强化学习方法,该方法将字符的建模与底层措施相结合,以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。
- 改进方差自适应线性赌博机和无时序线性混合马尔可夫决策过程的遗憾分析
本篇论文研究在线学习中的方差自适应算法,提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析,该方法在未知方差的情况下,能够实现 Regret 的拟多项式算法复杂度降低。
- 演员 - 评论家算法对高熵最优策略存在隐式偏差
通过交互式学习使用线性 softmax 策略和线性 MDP 更新的最简单的 actor-critic 方法,通过高熵优化实现了无需正则化或探索即可找到最优政策,从而消除了 MDP 中均匀混合假设的限制。
- 超越无悔:实例相关的 PAC 强化学习
研究提出了一种新的针对 PAC 表格强化学习的实例相关样本复杂度的计算方法,并设计了一种能够达到该样本复杂度的规划算法,该算法几乎是极小值最优的,且在多个实例上展现出比最坏情况界限更显著的改进。
- 哪些互信息表示学习目标足以支持控制?
本文研究了互信息最大化在强化学习中学习数据表示的应用,发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略, 并在模拟游戏环境中通过实证实验验证了这一结果。
- 在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习
本研究利用基于模型的方法研究了离线策略评估问题的统一框架,对于一些有充分理论支持的离线任务提供了最优学习方案,研究了统一收敛的统计上限,并在局部统一收敛方面建立了统一高效的分析工具。
- 几乎没有视野限制的离线强化学习
本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题,并提出了一种递归方法来限制离线场景下的 “总方差” 项,得到了近似无视野远的样本复杂度上限。
- Q-Learning 算法是否达到 Minimax 最优性?一种紧凑的样本复杂度分析
本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性,并展示在异步情况下的样本复杂性更强,Q-learning 算法是严格亚最优的。
- 通过自适应多步引导方法为表格型 MDPs 提供细粒度、依赖于间隙的界限
介绍了一种适用于有限时间段的情景式马尔可夫决策过程的无模型算法,Adaptive Multi-step Bootstrap(AMB),通过结合乐观自举法和自适应多步蒙特卡罗推演评估最优 Q 函数,并选择不被其他操作支配的且置信区间长度最大的 - 深度反向 Q 学习与约束
提出了一种新的算法类,仅需要解决一次 MDP 就能恢复专家策略,在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数,可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。
- 非平稳环境中的策略优化动态遗憾
本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++,并建立了它们的动态后悔保证。
- 随机斯塔克伯格安全博弈的无模型强化学习
本文提出了一种基于预期 Sarsa 的强化学习算法,使用粒子筛选器估计共同代理的信念更新,并以安全游戏示例说明了所学习的策略。
- AAAI风险规避强化学习的均值方差策略迭代
本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法,采用任意策略评估方法和风险中立控制方法,通过对一个新颖的扩展 MDP 直接进行处理,减少风险中立控制与风险规避控制之间的差距,并介绍了一种风险规避 TD3 方法作为 - 无模型强化学习中的无限时域平均奖赏马尔可夫决策过程
本文提出两种基于无模型的强化学习算法,用于学习无限时间持续的平均回报 MDP 问题,第一种算法在弱相互通信的 MDPs 中,将问题简化为折扣回报问题,在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法; - ICLR逆强化学习的最大似然约束推断
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条 - 解决折扣随机二人博弈问题的近似最优时间和样本复杂度
本文研究解决折扣二人零和随机游戏的采样复杂度,并提出一种计算策略的算法以及推广现有的 MDP 算法到多代理设置。
- 通过最小化覆盖时间发现探索选项
该论文研究强化学习中处理稀疏回报的方法,提出了通过构造最小化覆盖时间的选项来加速探索的算法,并在多个领域实验证明其可以改善学习效率。
- 在马尔可夫决策过程中学习协作
针对一个由两个代理解决协作任务的两代理 MDP 框架,设计一种在线学习算法,使得当第二代理以未知的方式适应其策略时,第一代理能够轻松成功协作,保证了算法的收敛速度,并证明了这种方式的必要性和适用性。