延迟、组合和部分匿名回报的强化学习

May, 2023

延迟、组合和部分匿名回报的强化学习

Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward

Washim Uddin Mondal, Vaneet Aggarwal

TL;DR本文研究了具有延迟、组合和部分匿名奖励反馈的无限期望回报马尔可夫决策过程，并提出了名为 DUCRL2 的算法来获得近似最优策略，并证明其达到了类似于 ODS 的遗憾界。

Abstract

We investigate an infinite-horizon average reward markov decision process (MDP) with delayed, composite, and partially anonymous reward feedback. The delay and compositeness of rewards mean that rewards generated as a result of taking an action at a given state are fragmented into diff

markov decision process composite reward anonymity ducrl2 algorithm regret bound

发现论文，激发创造

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

具有延迟组合匿名赌徒反馈的随机次模赌徒算法

本文研究了具有随机次模（期望上）奖励和完全 bandit 延迟反馈的组合多臂老虎机问题，其中假定延迟反馈是组合匿名的，同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型，给出了每种延迟模型的后悔界限，忽略问题相关参数，证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$，其中 $T$ 为时间跨度，$ u$ 根据三种情况有不同的定义，因此在所有三种延迟模型中表明了延迟对后悔的添加项，该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。

Mar, 2023

随机延迟的强化学习

研究分析了随机延迟环境中的多步价值估计问题，提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决，实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。

Oct, 2020

在约束条件下的马尔可夫决策过程学习

本文研究如何在满足成本平均值约束条件下，通过设计基于模型的强化学习算法，从而最大化累积奖励，同时确保每个成本值的平均值被绑定在特定的上界之内。此外，我们提出了一种衡量强化学习算法表现的方法，即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异，并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O（T ^ {2/3}）.

Feb, 2020

基于模型的延迟感知连续控制强化学习

该研究提出了延迟感知的马尔可夫决策过程的正式定义，并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架，可以将多步延迟纳入学习到的系统模型中，而无需进行学习。与 Gym 和 MuJoCo 平台进行的实验表明，与非策略模型无关的强化学习方法相比，所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。

May, 2020

周期性 MDP 中的在线强化学习

本文研究了周期马尔可夫决策过程中的学习问题，提出了一种基于上界置信区间的强化学习算法，证明了该算法的性能，在理论和经验层面上都表现出良好的效果。

Mar, 2023

强化学习中的延迟

研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。

Sep, 2023

具有约束条件的无限时间平均奖励马尔可夫决策过程学习

本研究提出了一种政策优化算法，用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题，该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率，并将其推广到弱通信 MDP 领域，为该领域提供了复杂度可行的算法。

Jan, 2022

通过随机回报分解学习长期奖励再分配

本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制，从而解决了强化学习中因奖励稀疏和延迟所引起的问题，并在基准任务上获得了显著的改进。

Nov, 2021

可证明高效的无限时间平均回报线性 MDP 的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。

May, 2024