嵌入式演示数据集搜索实现行为克隆
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
Jan, 2022
本文讲述了我们参加 MineRL 2019 比赛的经历,我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名,同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化,我们进行了更多的实验来研究不同的工程决策对性能的影响。
May, 2020
通过只使用像素数据作为输入,本研究论文描述了训练自主智能体在游戏《毁灭战士 2》中通过模仿学习(IL)进行游戏的方法。我们还探讨了强化学习(RL)相对于 IL 在摄像机运动和轨迹数据方面的人类性,并通过行为克隆(behavioural cloning)研究了个体模型学习不同行为特征的能力。我们尝试模仿具有不同游戏风格的真实玩家的行为,发现我们可以训练出具有攻击性、被动性或比传统 AI 更接近人类的行为的智能体。我们提出了这些在视频游戏中引入更多深度和接近人类行为的方法。经过训练的 IL 智能体在我们的数据集中的表现与普通玩家相当,同时优于最差的玩家。尽管性能没有常见的 RL 方法强,但它为智能体提供了更强的接近人类行为特征。
Jan, 2024
本研究提出了基于行为克隆的观察学习技术,旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务,并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。
May, 2018
使用行为克隆从单个人类示范中学习任务,通过使用线性变换增强单个示范来生成一系列初始条件广泛变化的轨迹,从而成功训练行为克隆智能体完成三个方块操作任务,并通过在推断期间将行动预测的标准差纳入集成方法中,使方法对环境中的意外变化更加稳健,从而实现了显著的性能提升。
Sep, 2023
我们提出了一种基于语言条件的语义搜索方法,从可用的示范数据集中获取在线搜索策略,在 CALVIN 基准测试中超过了基线性能,并展现了强大的零样本适应能力,对于扩展基于在线搜索策略的任务具有巨大的潜力。
Dec, 2023
本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法,以学习高层策略的加速方式,其中序列模型形成潜在空间先验,加速了高层策略的学习速度和最终性能。
Oct, 2022