模型驱动增强学习中的 Lipschitz 连续性

ICMLApr, 2018

模型驱动增强学习中的 Lipschitz 连续性

Lipschitz Continuity in Model-based Reinforcement Learning

Kavosh Asadi, Dipendra Misra, Michael L. Littman

TL;DR本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限，用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限，并表明估计值函数本身是 Lipschitz 的。最后，我们提供了实证结果，表明控制神经网络模型的 Lipschitz 常数的好处。

Abstract

We examine the impact of learning lipschitz continuous models in the context of model-based reinforcement learning. We provide a novel bound on multi-step prediction error of Lipschitz models where we quantify th

lipschitz continuous models model-based reinforcement learning wasserstein metric value-function estimate neural-network models

发现论文，激发创造

Lipschitz 历练强化学习

本文探讨了在面对一系列的强化学习任务时知识传递的问题，提出了一种近似的马尔科夫决策过程的优化值函数的方法，通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。

Jan, 2020

显式利普希茨值估计增强策略对扰动的稳健性

在机器人控制任务中，强化学习（RL）在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题，本文研究了通过利普希茨正则化来改善近似值函数的梯度条件，从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合，我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。

Apr, 2024

关于学习排序中损失函数的 Lipschitz 连续性和光滑性

本研究探讨了在学习排序问题中，利普希茨连续性和平滑性如何影响泛化误差，并使用∞-norm 改进了现有界限。此外，选择好的范数使得在平滑性假设下，我们证明了介于 1 / 根号 n 和 1/n 之间的比率。

May, 2014

通过强制利普希茨连续性来正则化神经网络

研究神经网络与输入的 Lipschitz 连续性约束，提供一种计算前馈神经网络 Lipschitz 常数上界的简单技术，进而以受限优化问题的形式训练神经网络并使用投影随机梯度方法求解，实验证明该方法优于其他常用规则化器，特别是在仅有少量训练数据时。

Apr, 2018

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

使用 Lipschitz 界限训练鲁棒神经网络

通过设计一种基于交替方向乘子法的最优化方案来训练多层神经网络，同时鼓励通过保持其利普希茨常数来促进鲁棒性，从而解决基于输入的扰动的效应以及提高神经网络的鲁棒性。该文设计了两个训练程序，最终提供了两个例子来证明这种方法成功地提高了神经网络的鲁棒性。

May, 2020

连续时间强化学习中深度残差网络的先验估计

我们的研究专注于连续时间控制问题，并提出了一种适用于所有具有半群和 Lipschitz 属性的问题的方法，可以直接分析贝尔曼最优损失的先验泛化误差。该方法的核心在于对损失函数的两个转换，并使用最大操作符的分解方法来完成转换。此分析方法不需要有界性假设，最终得到一种无维度诅咒的先验泛化误差。

Feb, 2024

Lipschitz 连续性保持的二值神经网络

本文提出了利用 Lipschitz 连续性作为二进制神经网络 (BNN) 模型鲁棒性的准确度量标准，并通过正则化方法，采用保留矩阵来近似目标权重矩阵的谱范数，以强化二进制神经网络的鲁棒性。实验证明，该方法在 CIFAR 和 ImageNet 数据集上能够达到最先进水平的性能。

Jul, 2022

训练健壮且具有通用性的量子模型

本文研究了基于 Lipschitz 界限的量子机器学习中的对抗鲁棒性和泛化性质，导出了适用于具有可训练编码的量子模型的定制参数相关的 Lipschitz 界限，并展示了数据编码的范数对于抵抗输入数据扰动的鲁棒性具有关键影响。此外，我们导出了一个关于泛化误差的界限，明确取决于数据编码的参数。我们的理论发现提供了一种实用的策略，即通过在代价函数中规范化 Lipschitz 界限来训练鲁棒且具有泛化能力的量子模型。此外，我们表明，对于在量子机器学习中经常使用的固定且不可训练的编码，Lipschitz 界限无法通过调整参数来影响。因此，在训练过程中，可训练编码对于系统地调整鲁棒性和泛化性是至关重要的。通过数值结果的验证，我们展示了 Lipschitz 界限的规范化显著提高了量子模型的鲁棒性和泛化能力。

Nov, 2023

深度神经网络的 Lipschitz 正则性：分析与高效估计

本文提出了 AutoLip 和 SeqLip 两种神经网络架构方法的 Lipschitz 常数的自动上界估计算法，并探讨了这种算法在计算大型卷积和顺序神经网络时的使用情况和启发式技巧。我们提供了使用 PyTorch 环境的 AutoLip 实现，可以使用更精确的 Lipschitz 估计来更好地评估神经网络对小扰动的鲁棒性或进行正则化。

May, 2018