嵌入式演示数据集搜索实现行为克隆

Jun, 2023

嵌入式演示数据集搜索实现行为克隆

Behavioral Cloning via Search in Embedded Demonstration Dataset

Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik

TL;DR使用潜空间索引演示数据集，成功地利用搜索技术实现基于行为克隆算法的控制，因此收获了具有人类特征、可以适应各种情境的代理行为，比现有的训练模型更加高效，具有无需任务适应等优点。

Abstract

behavioural cloning uses a dataset of demonstrations to learn a behavioural policy. To overcome various learning and policy adaptation problems, we propose to use →

behavioural cloning latent space policy adaptation search-based approach zero-shot task adaptation

发现论文，激发创造

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

人类驱动动态数据集扩充改进行为克隆

本文介绍了如何将行为克隆与人在环环学习相结合，利用一种新方法在模拟中允许专家随时控制代理并提供最优解，从而解决了行为克隆中的一些缺陷，提高了训练效率和降低了所需资源，实验表明该方法在定量评估和人类相似性方面都具有更好的效果。

Jan, 2022

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

VizDoom 中的行为克隆

通过只使用像素数据作为输入，本研究论文描述了训练自主智能体在游戏《毁灭战士 2》中通过模仿学习（IL）进行游戏的方法。我们还探讨了强化学习（RL）相对于 IL 在摄像机运动和轨迹数据方面的人类性，并通过行为克隆（behavioural cloning）研究了个体模型学习不同行为特征的能力。我们尝试模仿具有不同游戏风格的真实玩家的行为，发现我们可以训练出具有攻击性、被动性或比传统 AI 更接近人类的行为的智能体。我们提出了这些在视频游戏中引入更多深度和接近人类行为的方法。经过训练的 IL 智能体在我们的数据集中的表现与普通玩家相当，同时优于最差的玩家。尽管性能没有常见的 RL 方法强，但它为智能体提供了更强的接近人类行为特征。

Jan, 2024

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

一份 ACT 戏剧表演：单一演示行为克隆与行动分块变压器

使用行为克隆从单个人类示范中学习任务，通过使用线性变换增强单个示范来生成一系列初始条件广泛变化的轨迹，从而成功训练行为克隆智能体完成三个方块操作任务，并通过在推断期间将行动预测的标准差纳入集成方法中，使方法对环境中的意外变化更加稳健，从而实现了显著的性能提升。

Sep, 2023

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

扩散模型增强的行为克隆

本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能，此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。

Feb, 2023

自监督对抗模仿学习

本文提出一个包含鉴别器的行为克隆学习方法，用于解决之前的学习策略容易被困入错误局部最小值的问题，避免了人工干预的需要，利用鉴别器计算得到过渡函数从而帮助学习。

Apr, 2023

利用潜在空间先验的示范利用

本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法，以学习高层策略的加速方式，其中序列模型形成潜在空间先验，加速了高层策略的学习速度和最终性能。

Oct, 2022