Aug, 2022
未观测到混杂因素的因果模仿学习
Causal Imitation Learning with Unobserved Confounders
Junzhe Zhang, Daniel Kumor, Elias Bareinboim
TL;DR研究表明在模仿学习中,学者提出了一个非参数图形标准来确定模仿的可行性,并建立了一个有效的程序来从专家轨迹中学习模仿策略。
Abstract
One of the common ways children learn is by mimicking adults. Imitation
learning focuses on learning policies with suitable performance from
demonstrations generated by an expert, with an unspecified performance measure,
and unobserved reward signal. Popular methods for imitation learning
发现论文,激发创造
模仿学习中的因果混淆
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019
仿真学习中的反馈:协变量转移的三种模式
通过利用模拟器而无需进一步访问专家演示,我们证明了一类广泛存在的问题,这些问题可以在理论和实践上缓解移量漂移的影响,并详细说明了需要新的标准化基准来捕捉机器人问题中的现象。
Feb, 2021
在强化学习中模仿受成本约束的行为
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
Mar, 2024
带未观测到混杂变量的序列因果模仿学习
本文探究了在序贯设置下的因果模仿学习问题,提出了一种图形标准来确定因果模仿的可行性,并提供了一种有效的算法来确定可模仿性,并通过模拟实验验证了这种理论。
Aug, 2022
InfoGAIL:来自视觉示范的可解释性模仿学习
本文提出了一种基于对抗生成模型的模仿学习算法,能够通过无监督学习方法推断出专家示范中隐藏的潜在结构,并可以学习到复杂行为数据可解释且有意义的表示方式,包括图像示范。在驾驶领域中,我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法,我们的方法能更好地捕捉隐藏在专家示范中的潜在结构,并经常回收到语义上有意义的数据变量。
Mar, 2017
过程克隆的思维 imitation 链
本研究提出了一种称为程序克隆的技术,它使用监督序列预测来模拟专家计算的过程,从而实现了对专家行为中间计算的模仿。该方法不仅学习了如何执行一个特定的操作,更重要的是学习了执行该操作的过程和原因。实验证明,使用程序克隆学习中间计算可以在未知环境配置中产生显著的泛化效果。
May, 2022