零样本模仿策略通过演示数据集搜索

Jan, 2024

零样本模仿策略通过演示数据集搜索

Zero-shot Imitation Policy via Search in Demonstration Dataset

Federco Malato, Florian Leopold, Andrew Melnik, Ville Hautamaki

TL;DR使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Abstract

behavioral cloning uses a dataset of demonstrations to learn a policy. To overcome computationally expensive training procedures and address the policy adaptation problem, we propose to use latent spaces of pre-t

behavioral cloning latent spaces policy adaptation problem dynamic search problem minecraft agents

发现论文，激发创造

嵌入式演示数据集搜索实现行为克隆

使用潜空间索引演示数据集，成功地利用搜索技术实现基于行为克隆算法的控制，因此收获了具有人类特征、可以适应各种情境的代理行为，比现有的训练模型更加高效，具有无需任务适应等优点。

Jun, 2023

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

以关键帧为中心的视觉模仿学习

该研究提出了一种通过加强模仿的关键帧来改进模仿学习的方法，以在视觉模仿等现实场景中实现更好的性能表现，并在基于图像和基于视觉的控制任务中进行了验证。

Jun, 2021

Few-Shot Imitation Learning 通过查询未标记的数据集进行行为检索

本研究通过利用少量下游专家数据有针对性地获取有关未标记数据集的信息，设计了一种新颖的机器人学习方法以有效地学习视觉运动技能。该方法效果显著，在通过视频实景测试和实际机器人操作中超越了以往更为复杂的目标设定方法 20% 的表现

Apr, 2023

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

从观察中模仿潜在策略

本文提出了一种新的模仿学习方法，直接从状态观测推断潜在策略，并引入了一种方法来描述潜在动作对观测的因果影响，同时预测它们的可能性，从而确定潜在和实际行为之间的映射。本文在经典控制环境和平台游戏中评估了该方法，并表明它的性能优于标准方法。

May, 2018

隐式行为克隆

在机器人策略学习中，使用隐式模型的监督策略学习通常表现更好，这种策略不需要奖励信息，可以学习复杂的行为，并能够在具有高度组合复杂性和毫米级精度要求的任务中学习人类示范的复杂行为。

Sep, 2021

人类驱动动态数据集扩充改进行为克隆

本文介绍了如何将行为克隆与人在环环学习相结合，利用一种新方法在模拟中允许专家随时控制代理并提供最优解，从而解决了行为克隆中的一些缺陷，提高了训练效率和降低了所需资源，实验表明该方法在定量评估和人类相似性方面都具有更好的效果。

Jan, 2022

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018