强化学习的可复制性

May, 2023

Replicability in Reinforcement Learning

Amin Karbasi, Grigoris Velegkas, Lin F. Yang, Felix Zhou

TL;DR探讨强化学习领域中复制性的数学研究，提出了基于生成模型下的可复制性 RL 算法，其中包括一个有效的 $ ho$-replicable 算法和一个可计算的近似可复制的算法。

Abstract

We initiate the mathematical study of replicability as an algorithmic property in the context of reinforcement learning (RL). We focus on the fundamental setting of discounted tabular MDPs with access to a genera

replicability reinforcement learning algorithm policy estimation computational complexity

发现论文，激发创造

可复制的强化学习

本篇文章探索了在机器学习中的可复制性问题，提出了一个可复制的算法架构和针对不同领域的可复制性解决方案，包括针对控制问题和批量学习设置的评估模型。

May, 2023

学习中的可复制性和稳定性

本文研究了机器学习中的可复制性问题，提出了全局稳定性和列表可复制性的概念，并表明在除一些特殊情况外，大多数算法必须具有一定的随机性以实现可复制性。

Apr, 2023

可复现学习的计算景观

我们研究算法可复现性的计算方面，这是由 Impagliazzo、Lei、Pitassi 和 Sorrell [2022] 引入的稳定性概念。通过一系列与可学习性的统计联系的最新研究，如在线学习、私有学习和 SQ 学习，我们旨在更好地理解可复现性与这些学习范式之间的计算联系。我们的第一个结果表明，存在一个概念类，其 PAC 学习可复现且高效，但在标准的密码学假设下，不存在这个类的高效在线学习者。随后，我们设计了一个高效的可复现学习算法，用于在边际分布与均匀分布之间差异很大的情况下 PAC 学习奇偶函数，进展了 Impagliazzo 等人 [2022] 提出的问题。为了获得这个结果，我们设计了一个可复现的提升框架，受 Blanc、Lange、Malik 和 Tan [2023] 的启发，以黑盒方式将均匀边际分布上的高效可复现 PAC 学习器转化为任意边际分布上的可复现 PAC 学习器，其样本和时间复杂度依赖于分布复杂度的某个度量。最后，我们证明任何纯 DP 学习器都可以在准确性、置信度参数的多项式时间内转化为一个可复现学习器，并且与底层假设类的表示维度成指数关系。

May, 2024

超越预期回报：在评估强化学习算法时考虑政策可复制性

研究表明，强化学习中存在噪音和随机性，现有的评估程序仅使用期望回报评估政策，限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标，为用户提供选择所需性能与重复性权衡的参数，并通过大量实验验证了这些指标的益处。

Dec, 2023

高维统计中的可复制性

研究了可复制性的计算和统计等价性以及高维统计任务中的样本复杂度，并提出了解决分布有有界协方差和 N-Coin 问题中的开放问题的有效算法。

Jun, 2024

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

通过生成模型在模型为基础的强化学习中突破样本量限制

研究强化学习的样本效率，证明了两种算法的最小最优性，同时实现了目标准确率的最小最优样本复杂度，这是目前首次提供涵盖整个样本范围的最小最优保证。

May, 2020

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021