对抗性马尔可夫决策过程在线学习的乐观遗憾界限
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性MDP模型,并可以更好地处理单个episode的损失。
May, 2019
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Dec, 2019
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的MDP的后悔最小化设置。
Dec, 2020
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。
Feb, 2023
本篇论文提出了一种在线学习算法,能够同时应对恶意对手的损失函数和状态转移,并且随着对手的恶意程度而平稳地增加遗憾,同时采用黑盒约简方法达到无需先验知识的效果。此外,本文还对算法进行了改进,在生成损失的环境易于控制的情况下可以实现较小的遗憾。
May, 2023
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般CMDP中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。
Mar, 2024