- 高效的保守世界模型下的模仿学习
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能,只需要 10 个演示且没有奖励标签,同时解决了复杂的灵巧操作 - ICLR通过提升实现对抗模仿学习
通过建立加权回放缓冲区的新算法 AILBoost,该文研究了对抗性模仿学习在离策略训练中的有效性,实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。
- BeTAIL: 人工赛车游戏中基于行为转换的对抗模仿学习
BeTAIL 是一种结合行为转换(BeT)和在线对抗仿真学习(AIL)的方法,用于建模人类专家的顺序决策流程并纠正动态环境状态的变化,从而改善赛车性能和稳定性。
- 校准对比表示的视觉模仿学习
该研究提出了将校准对比学习应用于视觉对抗性模仿学习框架的简单有效解决方案,以从视觉状态中提取有价值的特征,在不修改架构或产生显著计算成本的情况下,可以与模仿学习框架共同优化。实验证明,该方法在 DMControl Suite 上能够以样本效 - AAAIDiffAIL: 扩散对抗模仿学习
引入扩散模型到对抗性模仿学习框架中,提出了一种名为扩散对抗模仿学习(DiffAIL)的方法,以改进传统二元分类器的准确性,从而能更好地捕捉专家示范并提高泛化性能。实验证明,该方法在两个基准任务上达到了最先进的性能,并显著超过了专家演示。
- 政策对比模仿学习
通过 Policy Contrastive Imitation Learning (PCIL) 方法,我们解决了 Adversarial Imitation Learning (AIL) 中低质量的 AIL 鉴别器表示所带来的问题,并成功地 - 基于策略的样本高效观测模仿学习
本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy - 具有未知转换的可证明高效的对抗性模仿学习
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法 MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法 OAL 的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示 MB-TAIL 的 - AAAI对抗性模仿学习中的无标签不完美演示
本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。
- 合成物理特性与场景互动
本文提出了一种使用对抗性模仿学习和强化学习来训练物理模拟角色表现场景交互任务的系统,无需手动注释大型非结构化运动数据,并且在训练过程中随机对象属性和其放置位置,从而能够推广到训练数据集中未呈现的物体和场景,并以自然的角色场景交互方式进行表现 - ICLR使用 Patch 奖励的视觉模仿学习
本文提出了一种使用图像局部区域的专业度来计算相应的奖励值的方法,即 PatchAIL。这种方法综合了奖励值并提高了训练的稳定性,能够在深度强化学习任务中提供有价值的解释性。
- PADL: 基于语言指导的基于物理的角色控制
PADL 系统利用自然语言处理技术与对抗生成网络的方法实现以自然语言为指令的物理角色动画控制,通过多任务聚合的方法支持自然语言指令的语义解析。
- 从引导式游玩中学习:利用简单辅助任务改进对抗性模仿学习的探索
本文提出了一种名为 LfGP 的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP 利用了多个探索性辅助任务的专家演示,强制代理程序探索标准 AIL 可能会忽略的状态和动作,实验结果表明,LfGP 在多任务机器人操纵 - ICLR重新思考 ValueDice:它真的可以提高性能吗?
该研究探究了 ValueDice 算法在离线和在线设置下相对于经典方法行为克隆的性能改进,发现其离线表现优于行为克隆算法并且可以在低数据情况下通过正则化达到相似的表现。此外,研究还发现,ValueDice 算法存在局限性,只在完整的专家轨迹 - ICLR强化学习中的模仿学习
针对确定性专家,本文使用固定奖励将模仿学习降为强化学习问题,并证实了可以恢复专家的奖励,并将模仿者与专家之间的总变化距离等同于对抗模仿学习,针对连续控制任务进行了实验确认降维的有效性。
- 对于敌对性模仿学习,什么是重要的?
该研究在大规模实验中研究了逾 50 个选择项,探讨其在区分高级算法选项和低级实现细节方面的影响,发现了一些惊人的结果,特别是以人类演示为基础的模拟场景可能会使模仿算法表现不佳。
- AMP:针对基于物理的角色控制的对抗运动先验的风格化方法
利用对抗性模仿学习的方法自动选择带有无结构动作片段数据集的物理模拟角色的行为,无需手动设计仿制目标和运动选择机制。该方法在训练对抗性运动先验的同时也自动选择要执行的运动,并能够轻松地适应大型的无结构运动片段数据集,且不需要高级运动规划器或其 - AAAI对抗模仿学习中防止假反例
通过对 Adversarial Imitation Learning 的训练信号做出调整,可以通过减少 False Negatives 的数量,从而在 BabyAI 环境中提高模型的样本效率。
- 正例 - 未标注奖励学习
本文针对学习奖励模型所面临的挑战,探讨了正例 - 无标记学习算法(positive-unlabeled learning)在奖励学习问题中的应用,并验证该方法可以同时解决奖励低估和高估问题,从而显著提高 both GAIL and supe - 对话生成:从模仿学习到逆强化学习
通过采用敌对模仿学习和敌对逆强化学习的方法,提出了一种新的对话生成奖励模型,可用于更精确地指导生成器训练,实验结果表明其有效性。