通过策略优化缩小对抗性和随机MDP之间的差距
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性MDP模型,并可以更好地处理单个episode的损失。
May, 2019
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案,用于改进和推广了(在具有对抗性损失和赌徒反馈的情况下)几个历史上最先进的MDP设定,并得到了更优秀的结果,其中包括调整了先前已知的结果。
Jul, 2021
本文研究了在损失函数任意的情况下,对于线性近似的Q函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到$\tilde{\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde{\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。
Feb, 2023
该研究探讨了马尔可夫决策过程中的无标度学习问题,提出了一个通用的算法框架(SCB),并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架,从而实现了无标度对抗性多臂赌博机的首个鲁棒(最小化)期望遗憾上界和首个高概率遗憾上界,并产生了第一个具有$\tilde{\mathcal{O}}(\sqrt{T})$高概率遗憾保证的无标度强化学习算法。
Mar, 2024
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般CMDP中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。
Mar, 2024