顺序任务设置中最小化局部遗憾的谬误
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
本文提出了一种在线的迁移学习方法,通过对任务内算法中底层的数据表示进行改进,实现跨任务信息转移,同时证明了该方法拥有良好的成本控制性质,并讨论了其在字典学习和有限预测器中的应用。
Oct, 2016
提出了一种适用于黑盒环境的极限情况的后悔最小化算法,通过以前保证仅实现的限制来实现亚线性的后悔率,并将其应用于逼近 Nash 均衡,学习最佳反应以及安全的对手利用等问题。
Mar, 2021
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。
Jun, 2024
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
Jul, 2023
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用 full-planning,而复杂度降为 S,并通过实时动态规划进行了新颖的分析。
May, 2019
提出了一个学习框架,该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组,以分别处理他们的不同探索风险容忍度,并研究了将 Pessimistic Value Iteration 作为利用算法的应用。
May, 2022
本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项的假设来展示在特定情况下,学习式分层学习可能比标准方法更优。
May, 2023