人类驱动动态数据集扩充改进行为克隆

AAAIJan, 2022

人类驱动动态数据集扩充改进行为克隆

Improving Behavioural Cloning with Human-Driven Dynamic Dataset Augmentation

Federico Malato, Joona Jehkonen, Ville Hautamäki

TL;DR本文介绍了如何将行为克隆与人在环环学习相结合，利用一种新方法在模拟中允许专家随时控制代理并提供最优解，从而解决了行为克隆中的一些缺陷，提高了训练效率和降低了所需资源，实验表明该方法在定量评估和人类相似性方面都具有更好的效果。

Abstract

behavioural cloning has been extensively used to train agents and is recognized as a fast and solid approach to teach general behaviours based on expert trajectories. Such method follows the supervised learning paradigm and it strongly depends on the distribution of the data. In our pa

behavioural cloning human-in-the-loop training task-specific corrections simulations quantitative evaluation

发现论文，激发创造

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

嵌入式演示数据集搜索实现行为克隆

使用潜空间索引演示数据集，成功地利用搜索技术实现基于行为克隆算法的控制，因此收获了具有人类特征、可以适应各种情境的代理行为，比现有的训练模型更加高效，具有无需任务适应等优点。

Jun, 2023

扩散模型增强的行为克隆

本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能，此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。

Feb, 2023

探究自动驾驶行为克隆的局限性

本文介绍一种新的基准测试，以探究行为克隆的可扩展性和限制性，结果表明，行为克隆在复杂的驾驶情况下拥有先进的成果，但是仍存在数据集偏差和过度拟合的问题，缺乏因果模型和培训不稳定性导致进一步的研究需要进行。

Apr, 2019

VizDoom 中的行为克隆

通过只使用像素数据作为输入，本研究论文描述了训练自主智能体在游戏《毁灭战士 2》中通过模仿学习（IL）进行游戏的方法。我们还探讨了强化学习（RL）相对于 IL 在摄像机运动和轨迹数据方面的人类性，并通过行为克隆（behavioural cloning）研究了个体模型学习不同行为特征的能力。我们尝试模仿具有不同游戏风格的真实玩家的行为，发现我们可以训练出具有攻击性、被动性或比传统 AI 更接近人类的行为的智能体。我们提出了这些在视频游戏中引入更多深度和接近人类行为的方法。经过训练的 IL 智能体在我们的数据集中的表现与普通玩家相当，同时优于最差的玩家。尽管性能没有常见的 RL 方法强，但它为智能体提供了更强的接近人类行为特征。

Jan, 2024

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

自监督对抗模仿学习

本文提出一个包含鉴别器的行为克隆学习方法，用于解决之前的学习策略容易被困入错误局部最小值的问题，避免了人工干预的需要，利用鉴别器计算得到过渡函数从而帮助学习。

Apr, 2023

扩散模型模拟人类行为

本研究在于探讨将扩散模型用于观察到行为模型，以模仿人类在连续环境中的行为。研究发现扩散模型可充分学习联合行动空间的表达分布，具有表现力强等优点。实验结果表明，扩散模型能够精确匹配真实人类行为及控制任务等多方环境表现。

Jan, 2023

基于参数化专家的高效学习数据增强

本研究提出了一种名为增强型策略克隆（APC）的技术，通过使用合成状态在采样轨迹周围诱导反馈敏感性，从而显着减少了克隆专家所需的环境交互次数，实现了从专家到学生策略的高效数据迁移，适用于许多现有的算法。

May, 2022

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020