线性 MDPs 中具有累积赌臂反馈的近最优遗憾
开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设 MDP 具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
Jul, 2020
该研究论文提出了第一个计算高效、无横向界限算法,其中采用了加权最小二乘法,以用于未知状态转移动态的估算,并能够应用于异构线性 bandits 中,达到了比已知算法更优的效果。
May, 2022
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。
Feb, 2023
这项研究介绍了一种利用人类反馈的强化学习算法,在线性 MDP 模型和非线性函数逼近模型下,通过随机化算法设计实现了高样本效率和多项式计算复杂度,并通过一种新颖的随机主动学习过程最小化了查询复杂度,同时在后者中取得了近乎最优的折衷结果。
Oct, 2023
这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持,并进行了有效性验证。
Oct, 2020
本文研究了在损失函数任意的情况下,对于线性近似的 Q 函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
在这篇论文中,我们考虑了联合强化学习用于表格式情节马尔可夫决策过程(MDP),在这种过程中,通过一个中央服务器的协调,多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法,分别称为 FedQ-Hoeffding 和 FedQ-Bernstein,并且证明了当时间范围足够大时,与单个代理对应的总后悔值可以实现线性加速,而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择,以及一组新的浓度不等式,用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。
Dec, 2023