本文讲述了我们参加 MineRL 2019 比赛的经历,我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名,同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化,我们进行了更多的实验来研究不同的工程决策对性能的影响。
May, 2020
本文介绍了如何利用消费级虚拟现实头显和手部追踪硬件来自然地远程操纵机器人执行复杂任务,并说明了如何使用仿真学习来学习从像素到动作的策略映射。实验展示了我们方法在视觉动作技能学习上的有效性。
Oct, 2017
本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法,将这些模块与估算的 Odometry 地图相结合,以自然层次结构利用人类知识的强大状态机,并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。
Dec, 2021
探究模型和数据规模的逐渐扩大对模仿学习的影响,以 NetHack 游戏为基础,发现模仿学习在具有挑战性的领域中的扩展行为,以及在 NetHack 游戏中扩大当前方法以获得更强大的智能体的可行性。
Jul, 2023
本文旨在为 Imitation Learning 的算法提供广泛的综述,对这些算法的主要特征进行介绍,并在性能和遗憾界限上进行比较。
Jan, 2018
模仿学习的文献内容进行了系统回顾,通过引入新的分类法对模仿学习技术、环境和度量进行了分类,反思了文献中的主要问题,并提出了研究者面临的挑战和未来发展方向。
Apr, 2024
本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集 MineRL,该数据集涵盖了 Minecraft 中多个相关任务,其中有超过 6000 万个由自动注释的状态动作对,证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决 Minecraft 研究挑战的技术研究。
Jul, 2019
我们提出了一种新的多智能体模仿学习模型,用于预测对手的下一步动作,并将其与策略训练结合为一个训练过程的多智能体强化学习算法,在三个具有挑战性的游戏环境中进行了广泛实验,结果表明我们的方法在性能上优于现有的多智能体强化学习算法。
Aug, 2023
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体,但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下,通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。
Aug, 2019