本文研究探讨了模仿学习中的信息流,并提出了一种新的神经网络结构,解决了图像信号缺乏运动信息和物体遮挡的问题,并通过在 CARLA 和 MuJoCo 两个模拟器上的基准测试,成功地缓解了模仿过程中的拷贝问题并超越了现有的解决方案。
Jul, 2022
该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略,直接从 RGB 相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018
本文提出了一种无需专家指导,在探索环境中通过前向一致性损失生成目标导向的技能策略,并应用其中的零样本策略,成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。
Apr, 2018
基于视觉观测的模仿学习的研究,在部分可观察环境中,引入了基于状态潜在转换分布的上界来分析学习代理的次优性,并提出了一种名为潜在对抗性观测模仿学的算法,在高维连续机器人任务中表现出与最先进的性能,同时提供显著的计算优势,并可以利用专家视频来提高从像素进行强化学习的效率。
Sep, 2023
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
本研究提出了一种基于商用机械臂的可行的、简化了数据收集过程的、能够有效采集各种复杂场景演示数据的人机互动界面,并采用了多项数据增强技术来优化模型的学习性能,最终在非捏取推动和物品堆叠等任务中获得了较高的成功率。
Aug, 2020
本文提出了一种基于高层指令输入的条件性模仿学习方法,使得经过训练的车辆在测试时间内仍然能够遵循导航指令,本文在仿真实验和机器人卡车实验中对各种条件性模仿学习架构进行了评估和实践。
Oct, 2017
我们引入了一种通用的视觉预测框架,旨在直接模仿视觉序列而不需要额外的监督。我们通过将视觉预测转化为逆强化学习问题,并通过可训练的深层特征表示扩展最近的进展来解决计算瓶颈。我们在低级像素到高级语义的三个不同级别上评估了我们的方法,在所有级别上,我们的方法都优于现有的方法。
Aug, 2017
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024