关于稳定约束模仿学习的样本复杂度

Feb, 2021

关于稳定约束模仿学习的样本复杂度

On the Sample Complexity of Stability Constrained Imitation Learning

Stephen Tu, Alexander Robey, Tingnan Zhang, Nikolai Matni

TL;DR在模仿学习中，专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响，本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法，通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。

Abstract

We study the following question in the context of imitation learning for continuous control: how are the underlying stability properties of an expert policy reflected in the →

imitation learning continuous control sample-complexity incremental gain stability dagger

发现论文，激发创造

模仿复杂轨迹：连接低层稳定性和高层行为

我们提出了一个理论框架，用于研究非马尔可夫、潜在多模态（即 “复杂的”）专家示范在非线性动力系统中的模仿。

Jul, 2023

关于学习稳定线性系统的难度

通过对 Tsiamis 等人的工作进行启发，本文研究了学习线性时不变系统的统计困难性，难度通过实现给定概率下所需样本数来衡量；作者通过展示一类系统可以容易地进行识别，但系统稳定化的样本复杂度仍然随系统维度呈指数增加，并利用强控制中的理念将此结果与该系统类别的共稳定性困难性相关联。

Nov, 2023

走向模仿学习的基本极限

研究了在马尔可夫决策过程中，即使在给定数据集前提下，模仿专家政策的算法可能会存在次优性，并提出了一种基于最小距离函数的新算法，在确定性专家和已知转移模型的情况下，提高了最小极值速率。

Sep, 2020

基于学习的自适应控制离散多维随机线性系统稳定性界限及输入限制

针对多维线性系统的自适应稳定化问题，该研究提出了一种确知等效控制方案，该方案将在线参数估计与饱和线性控制相结合，证明了在系统及噪声假设条件下，闭环系统具有高概率稳定性界限，并给出了数值实验结果。

Apr, 2023

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

部分动力学知识的高效强化学习

本文研究在线强化学习的样本复杂性问题，并考虑了有关系统动态的部分知识，提出了一种基于 Q-learning 的算法，能够在具有有限 Markov 决策过程的系统中实现近似最优策略。

Dec, 2023

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

算法稳定性和假设复杂度

本研究提出了算法稳定性的概念，即我们称之为 “参数稳定性”，它捕捉从中选择假设的函数的规范空间中学习算法产生的假设的稳定性。论文的主要结果在于以参数稳定性来限制任何学习算法的泛化误差。这些限制基于 Banach 空间中的鞅不等式。我们将普遍限制应用于基于经验风险最小化和随机梯度下降的一些学习算法的性能边界。

Feb, 2017

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

全球稳定的神经仿真策略

通过引入稳定神经动力系统（SNDS），我们提出了一种保证稳定性的模仿学习方案，该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂，实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题，为复杂规划场景中的稳定策略学习提供了有希望的解决方案。

Mar, 2024