关于稳定约束模仿学习的样本复杂度
通过对 Tsiamis 等人的工作进行启发,本文研究了学习线性时不变系统的统计困难性,难度通过实现给定概率下所需样本数来衡量;作者通过展示一类系统可以容易地进行识别,但系统稳定化的样本复杂度仍然随系统维度呈指数增加,并利用强控制中的理念将此结果与该系统类别的共稳定性困难性相关联。
Nov, 2023
研究了在马尔可夫决策过程中,即使在给定数据集前提下,模仿专家政策的算法可能会存在次优性,并提出了一种基于最小距离函数的新算法,在确定性专家和已知转移模型的情况下,提高了最小极值速率。
Sep, 2020
针对多维线性系统的自适应稳定化问题,该研究提出了一种确知等效控制方案,该方案将在线参数估计与饱和线性控制相结合,证明了在系统及噪声假设条件下,闭环系统具有高概率稳定性界限,并给出了数值实验结果。
Apr, 2023
论文研究了通过调节策略的输入输出梯度,可以基于可行性半定规划问题获得健壮稳定性的保证,并通过应用于两个去中心化控制任务,证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。
Oct, 2018
本文研究在线强化学习的样本复杂性问题,并考虑了有关系统动态的部分知识,提出了一种基于 Q-learning 的算法,能够在具有有限 Markov 决策过程的系统中实现近似最优策略。
Dec, 2023
本研究提出了算法稳定性的概念,即我们称之为 “参数稳定性”,它捕捉从中选择假设的函数的规范空间中学习算法产生的假设的稳定性。 论文的主要结果在于以参数稳定性来限制任何学习算法的泛化误差。这些限制基于 Banach 空间中的鞅不等式。 我们将普遍限制应用于基于经验风险最小化和随机梯度下降的一些学习算法的性能边界。
Feb, 2017
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能,只需要 10 个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。
May, 2024
通过引入稳定神经动力系统(SNDS),我们提出了一种保证稳定性的模仿学习方案,该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂,实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题,为复杂规划场景中的稳定策略学习提供了有希望的解决方案。
Mar, 2024