本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法,使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术,以解决探索和对抗性奖励所带来的挑战,证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界,其中 d 是未知转移核线性参数化的已知特征映射的维数,K 是剧集数量,|S| 和 |A| 是状态和行为空间的基数。
May, 2023
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022
近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界,其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比,该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数,而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器,该方法获得了无周期边界,并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。
Mar, 2024
我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。
本篇论文研究在线学习中的方差自适应算法,提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析,该方法在未知方差的情况下,能够实现 Regret 的拟多项式算法复杂度降低。
Nov, 2021
设计了一个计算有效的算法,通过将平均奖励设定近似为折扣设定,并且在适当调整贴现因子时,通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
May, 2024
在稀疏线性马尔可夫决策过程中,通过引入一种新的算法 - Lasso fitted Q-iteration, 通过一个具有一定条件的数据策略,以几乎无维度代价实现对在线强化学习的降低,但线性后悔在常用政策情况下仍然无法避免。
Nov, 2020
在线强化学习是研究的主题之一,尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈,提出了两个算法以改善后悔性能。
Oct, 2023