强化学习的可复制性
我们研究算法可复现性的计算方面,这是由 Impagliazzo、Lei、Pitassi 和 Sorrell [2022] 引入的稳定性概念。通过一系列与可学习性的统计联系的最新研究,如在线学习、私有学习和 SQ 学习,我们旨在更好地理解可复现性与这些学习范式之间的计算联系。我们的第一个结果表明,存在一个概念类,其 PAC 学习可复现且高效,但在标准的密码学假设下,不存在这个类的高效在线学习者。随后,我们设计了一个高效的可复现学习算法,用于在边际分布与均匀分布之间差异很大的情况下 PAC 学习奇偶函数,进展了 Impagliazzo 等人 [2022] 提出的问题。为了获得这个结果,我们设计了一个可复现的提升框架,受 Blanc、Lange、Malik 和 Tan [2023] 的启发,以黑盒方式将均匀边际分布上的高效可复现 PAC 学习器转化为任意边际分布上的可复现 PAC 学习器,其样本和时间复杂度依赖于分布复杂度的某个度量。最后,我们证明任何纯 DP 学习器都可以在准确性、置信度参数的多项式时间内转化为一个可复现学习器,并且与底层假设类的表示维度成指数关系。
May, 2024
研究表明,强化学习中存在噪音和随机性,现有的评估程序仅使用期望回报评估政策,限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标,为用户提供选择所需性能与重复性权衡的参数,并通过大量实验验证了这些指标的益处。
Dec, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
研究强化学习的样本效率,证明了两种算法的最小最优性,同时实现了目标准确率的最小最优样本复杂度,这是目前首次提供涵盖整个样本范围的最小最优保证。
May, 2020
本文探讨了强化学习中的无法重现性问题,提出了使用严格规范的评估方法来确保算法之间的公正比较,并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。
Sep, 2019
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016