基于线性贝尔曼完备性的计算高效强化学习
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
该研究论文提出了第一个计算高效、无横向界限算法,其中采用了加权最小二乘法,以用于未知状态转移动态的估算,并能够应用于异构线性 bandits 中,达到了比已知算法更优的效果。
May, 2022
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决 DRMDPs 的非线性问题,并引入了 DR-LSVI-UCB 算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线 DRMDPs 与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。
Feb, 2024
本文提出了一种基于 Bellman 误差的最小平方价值迭代算法的线性函数逼近学习方法,通过足够的探索可以提供强有力的 PAC 保证,并且采用无奖赏情况下计算可行的算法,通过纯探索收集样本可以得到相同级别的 PAC 保证。
Aug, 2020
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024
在本文中,我们展示了基于回报条件的监督学习(RCSL)的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛,使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能,并提出了 MBRCSL 框架,通过利用学习的动力学模型和前向采样来实现轨迹拼接,从而避免了所有动态规划算法中困扰的 Bellman 完备性需求。
Oct, 2023