线性 MDPs 中具有累积赌臂反馈的近最优遗憾

May, 2024

线性 MDPs 中具有累积赌臂反馈的近最优遗憾

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Asaf Cassel, Haipeng Luo, Aviv Rosenberg, Dmitry Sotnikov

TL;DR该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法，并使用新的对冲方案构建政策优化算法，对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。

Abstract

In many real-world applications, it is hard to provide a reward signal in each step of a reinforcement learning (RL) process and more natural to give feedback when an episode ends. To this end, we study the recently proposed model of RL with →

reinforcement learning aggregate bandit feedback linear function approximation optimistic algorithm policy optimization algorithm

发现论文，激发创造

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设 MDP 具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

通过线性优化改进线性对抗 MDPs 的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。

Feb, 2023

通过随机化提高基于偏好反馈的强化学习的效率

这项研究介绍了一种利用人类反馈的强化学习算法，在线性 MDP 模型和非线性函数逼近模型下，通过随机化算法设计实现了高样本效率和多项式计算复杂度，并通过一种新颖的随机主动学习过程最小化了查询复杂度，同时在后者中取得了近乎最优的折衷结果。

Oct, 2023

使用线性函数逼近的非平稳强化学习

这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中，通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限，提出了两种最优算法：LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持，并进行了有效性验证。

Oct, 2020

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

除去偏见：针对对抗性赌博机和 MDPs 的高概率数据依赖性遗憾边界

发展了一种新的方法，使用标准无偏估计量，并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式，以获取高概率遗憾边界。

Jun, 2020

联邦 Q-Learning：线性遗憾加速与低通信成本

在这篇论文中，我们考虑了联合强化学习用于表格式情节马尔可夫决策过程（MDP），在这种过程中，通过一个中央服务器的协调，多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法，分别称为 FedQ-Hoeffding 和 FedQ-Bernstein，并且证明了当时间范围足够大时，与单个代理对应的总后悔值可以实现线性加速，而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择，以及一组新的浓度不等式，用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

Dec, 2023