强化学习中的分布鲁棒性和正则化
本文提出一种基于 Wasserstein 的分布鲁棒性优化方法,旨在通过同时应用本地和全局正则化,将原始分布与最具挑战性的分布相结合,提高模型的建模能力,解决深度神经网络在实际应用中对抗性示例和分布偏移等问题。实验结果表明,该方法在半监督学习、领域适应、领域泛化和对抗机器学习等各领域中均明显优于现有的正则化方法。
Mar, 2022
本文发展了关于 Wasserstein DRO(分布鲁棒优化问题中的一种方法)变化规则的一般理论,它是一种新形式的正则化,可以处理可能不是凸的和不光滑的损失以及非欧几里得空间上的损失。通过应用我们理论中的变化规则,我们为对抗性鲁棒学习提供了新的泛化保证。
Dec, 2017
本文研究了使用最大均值差(MMD)来测量不确定性集合的 DRO,证明了 MMD DRO 与希尔伯特范数的正则化基本等价,并揭示了与统计学习中的经典结果的深刻联系,并且通过 DRO 证明了高斯核岭回归的广义上界,从而得出一种新的正则化方法。
May, 2019
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程,我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系,并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地,我们推广了规则化 MDPs 到双重规则化 MDPs,并在表格和物理领域进行了数值验证。
Mar, 2023
提供了一种自然的数据驱动方式,用于学习分布绝对稳健优化问题中定义的分布区间,证明该框架包括自适应正则化作为一个特殊案例,实证表明所提出的方法能够改进广泛应用的机器学习估计器。
May, 2017
提出了一种利用 Wasserstein 距离的分布鲁棒优化方法,用于解决环境不匹配的问题,并提供了理论分析和实证验证。
Sep, 2023
该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
Oct, 2021
我们提出了一种计算效率高的框架,称为 FlowDRO,用于解决基于流的分布鲁棒优化(DRO)问题,该框架利用 Wasserstein 不确定性集,并要求最差情况分布(也称为最不利分布,LFD)连续,从而使该算法能够在具有更大样本量的问题中进行扩展,并为引入的鲁棒算法提供更好的泛化能力。
Oct, 2023