在 Minecraft 中实现模仿学习的扩展

Jul, 2020

在 Minecraft 中实现模仿学习的扩展

Scaling Imitation Learning in Minecraft

Artemij Amiranashvili, Nicolai Dorka, Wolfram Burgard, Vladlen Koltun, Thomas Brox

TL;DR本研究将模仿学习应用于 Minecraft 环境中的探索问题，通过实验调研了网络结构、损失函数和数据扩充等因素的影响，并取得了良好的表现，可以作为未来竞赛和相关研究的起点。

Abstract

imitation learning is a powerful family of techniques for learning sensorimotor coordination in immersive environments. We apply imitation learning to attain state-of-the-art performance on hard exploration probl

imitation learning sensorimotor coordination minecraft environment network architecture data augmentation

发现论文，激发创造

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

基于深度模仿学习的虚拟现实远程操作复杂操纵任务

本文介绍了如何利用消费级虚拟现实头显和手部追踪硬件来自然地远程操纵机器人执行复杂任务，并说明了如何使用仿真学习来学习从像素到动作的策略映射。实验展示了我们方法在视觉动作技能学习上的有效性。

Oct, 2017

将人类反馈学习与知识工程相结合，在 Minecraft 中解决分层任务

本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法，将这些模块与估算的 Odometry 地图相结合，以自然层次结构利用人类知识的强大状态机，并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。

Dec, 2021

NetHack 中模仿学习的规模定律

探究模型和数据规模的逐渐扩大对模仿学习的影响，以 NetHack 游戏为基础，发现模仿学习在具有挑战性的领域中的扩展行为，以及在 NetHack 游戏中扩大当前方法以获得更强大的智能体的可行性。

Jul, 2023

模仿学习的全球概述

本文旨在为 Imitation Learning 的算法提供广泛的综述，对这些算法的主要特征进行介绍，并在性能和遗憾界限上进行比较。

Jan, 2018

模仿学习：学习方法、环境和评估方法综述

模仿学习的文献内容进行了系统回顾，通过引入新的分类法对模仿学习技术、环境和度量进行了分类，反思了文献中的主要问题，并提出了研究者面临的挑战和未来发展方向。

Apr, 2024

MineRL: 一个大规模的《Minecraft》演示数据集

本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集 MineRL，该数据集涵盖了 Minecraft 中多个相关任务，其中有超过 6000 万个由自动注释的状态动作对，证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决 Minecraft 研究挑战的技术研究。

Jul, 2019

模仿以获胜：多智能竞争游戏中的模仿学习策略

我们提出了一种新的多智能体模仿学习模型，用于预测对手的下一步动作，并将其与策略训练结合为一个训练过程的多智能体强化学习算法，在三个具有挑战性的游戏环境中进行了广泛实验，结果表明我们的方法在性能上优于现有的多智能体强化学习算法。

Aug, 2023

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019