强化学习中的分布鲁棒性和正则化

ICMLMar, 2020

强化学习中的分布鲁棒性和正则化

Distributional Robustness and Regularization in Reinforcement Learning

Esther Derman, Shie Mannor

TL;DR本文介绍了一种新的 Wasserstein 分布强化学习框架，并将其与正则化相联系，从而为解决强化学习中的外部不确定性问题提供一个新的实用工具。

Abstract

distributionally robust optimization (DRO) has enabled to prove the equivalence between robustness and regularization in classification and regression, thus providing an analytical reason why →

distributionally robust optimization markov decision processes wasserstein distribution regularization reinforcement learning

发现论文，激发创造

全局 - 局部正则化的分布鲁棒性

本文提出一种基于 Wasserstein 的分布鲁棒性优化方法，旨在通过同时应用本地和全局正则化，将原始分布与最具挑战性的分布相结合，提高模型的建模能力，解决深度神经网络在实际应用中对抗性示例和分布偏移等问题。实验结果表明，该方法在半监督学习、领域适应、领域泛化和对抗机器学习等各领域中均明显优于现有的正则化方法。

Mar, 2022

Wasserstein 分布稳健优化和变差正则化

本文发展了关于 Wasserstein DRO（分布鲁棒优化问题中的一种方法）变化规则的一般理论，它是一种新形式的正则化，可以处理可能不是凸的和不光滑的损失以及非欧几里得空间上的损失。通过应用我们理论中的变化规则，我们为对抗性鲁棒学习提供了新的泛化保证。

Dec, 2017

核方法中的分布鲁棒优化和泛化

本文研究了使用最大均值差（MMD）来测量不确定性集合的 DRO，证明了 MMD DRO 与希尔伯特范数的正则化基本等价，并揭示了与统计学习中的经典结果的深刻联系，并且通过 DRO 证明了高斯核岭回归的广义上界，从而得出一种新的正则化方法。

May, 2019

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

具有双重正则化的马尔可夫决策过程：强鲁棒性和正则化之间的等价性

本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程，我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系，并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地，我们推广了规则化 MDPs 到双重规则化 MDPs，并在表格和物理领域进行了数值验证。

Mar, 2023

基于数据驱动的分布鲁棒优化最优成本选择

提供了一种自然的数据驱动方式，用于学习分布绝对稳健优化问题中定义的分布区间，证明该框架包括自适应正则化作为一个特殊案例，实证表明所提出的方法能够改进广泛应用的机器学习估计器。

May, 2017

基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习

提出了一种利用 Wasserstein 距离的分布鲁棒优化方法，用于解决环境不匹配的问题，并提供了理论分析和实证验证。

Sep, 2023

两次正则化的 MDPs 及其鲁棒性与正则化之间的等价性

该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程，即基于正则化的鲁棒 MDP 算法，与传统的鲁棒优化方法相比，它能够有效地降低计算复杂度并提高可扩展性。

Oct, 2021

异常值鲁棒的 Wasserstein DRO

给定一个研究论文，提取 5 个关键词，准确地代表其主要主题和研究领域。然后，用一句简明扼要的中文句子概括该论文。

Nov, 2023

基于流量的分布鲁棒优化

我们提出了一种计算效率高的框架，称为 FlowDRO，用于解决基于流的分布鲁棒优化（DRO）问题，该框架利用 Wasserstein 不确定性集，并要求最差情况分布（也称为最不利分布，LFD）连续，从而使该算法能够在具有更大样本量的问题中进行扩展，并为引入的鲁棒算法提供更好的泛化能力。

Oct, 2023