一种耦合流方法的模仿学习
本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。
May, 2022
我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架,通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题,并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。
Aug, 2023
本文提出了一种新的参数估计技术,该技术无需计算不可处理的归一化因子或从模型的平衡分布中采样,通过建立动态算法将观测到的数据分布转化为模型分布,并通过使得数据分布与运行该动态算法的分布的 KL 散度最小化来进行优化,在 Ising 模型等情况下展示比当前先进技术更快的学习效率和更低的误差。
Jun, 2009
本文提出了一种使用多模演示的模仿学习方法,针对现有方法中插值错误的问题,采用与专家状态 - 行动分布的正向 KL 散度相对应的反向 KL 散度,即 I-projection,作为不同 f - 散度估计和最小化的框架,并得出了比 GAIL 和行为克隆更加可靠的多模行为近似 I-projection 方法。
May, 2019
本文提出了一种基于 f-divergence 的算法 f-IRL,通过学习奖励函数来匹配专家状态分布以优化控制任务的样本效率和行为迁移能力,并在各种 IRL 基准测试中超越了对手仿真学习方法。
Nov, 2020
该研究考虑了两种不同的学习方式:模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法,并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题,在模仿学习方面也达到了标准基准任务的最新样本效率。
Feb, 2020
本文提出了一种基于分歧最小化的 Imitation Learning 方法,即 $f$-MAX,将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。
Nov, 2019
机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎,因为它们可以有效地逼近目标概率分布。在格点场论中,目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器,避免了相关的计算问题,应用于临界维度的二维 Schwinger 模型,并显示它相比重新参数化技巧估计器的墙钟时间更快,内存需求减少了 30%,数值上更稳定,并允许进行单精度计算和使用半浮点张量核心。我们深入分析了这些改进的原因,这些优点也将出现在目标概率分布计算复杂的其他领域中。
Aug, 2023
本文提出了一种新的框架,用于分析实际系统中分布转移的动态,该框架捕捉算法学习和它们所部署的分布之间的反馈循环,并针对两种常见的机器学习情景,通过偏微分方程模型证明了再训练过程的渐近收敛性,同时通过实证研究表明,该方法能够很好地捕捉自然数据中的分布变化。
Jul, 2023
我们提出了一种新颖的知识转移框架,引入连续归一化流进行渐进知识转化,并利用多步采样策略实现精准知识传递。通过引入随机插值,我们理论上证明了 FM-KT 的训练目标相当于最小化教师特征映射或逻辑负对数似然的上界。此外,FM-KT 可以看作是一种独特的隐式集成方法,从而实现性能提升。通过对 CIFAR-100、ImageNet-1k 和 MS-COCO 数据集进行大量实验证明了我们提出的方法在相关比较方法中的可扩展性和最先进性能。
Feb, 2024