- 保守的 DDPG -- 无需集成的悲观强化学习
DDPG 面临过度估计偏差问题,而传统解决方法涉及到需要大量计算资源的基于集成的方法或难以理解和实现的复杂对数策略方法。相比之下,我们提出了一种简单的解决方案,使用一个 $Q$-target 并结合行为克隆(BC)损失惩罚作为不确定性度量, - AdaFlow:具有方差自适应流动策略的模仿学习
基于扩散的模仿学习改善多模态决策制定,但由于扩散过程中的递归导致推理速度显著降低,迫使我们设计高效的策略生成器,同时保持生成多样化动作的能力。为了解决这一挑战,我们提出了 AdaFlow,一种基于流式生成建模的模仿学习框架。AdaFlow - 通过轨迹拼接提炼离线强化学习的条件扩散模型
基于数据增强的知识蒸馏方法提出,通过条件扩散模型生成高回报轨迹,并通过新的奖励生成器运用新颖的拼接算法将其与原始轨迹混合。将得到的数据集应用于行为克隆,学习到的规模较小的浅层策略在几个 D4RL 基准测试中表现优于或接近深度生成规划器。
- 零样本模仿策略通过演示数据集搜索
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
- 自动驾驶端到端中速度和延迟的应对
行为克隆方法在端到端驾驶中的应用,通过收集专家驾驶数据集,模型学习猜测专家在不同情况下会做出什么行为,并表现为低级或中级指令和轨迹。研究发现驾驶速度的差异和延迟会影响模型的性能,同时提出了改变目标标签以减轻延迟影响的解决方法。
- 社交动作预测与认知层次
通过多智能体强化学习、行为克隆和生成对抗性模仿学习,以及认知级别层次框架,我们在团队运动的背景下,引入了一个新的基准、一种新的公式和一个受认知启发的框架,以预测战略人类社交互动。我们通过使用 Wusi,一个 3D 多人动作数据集来验证我们的 - 连续状态环境中的条件核模仿学习
我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架,通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题,并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。
- 连贯的软件仿真学习
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调 - 扩散模型增强的行为克隆
本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能,此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。
- 基于掩码自编码的可扩展通用决策制定
本文提出了一种名为 MaskDP 的简单、可扩展的自监督预训练方法,用于强化学习和行为克隆。这种方法利用了掩码自编码器(MAE)在状态 - 动作轨迹中的作用,可以更好地学习多个下游任务的模型。实验表明,MaskDP 模型的零 - shot - 机器人学习工作:人在环内,部署期间的自主学习
本文介绍了一种基于机器人学习的新框架 ——Sirius,通过人机分工实现了安全部署和复杂任务的有保障合作,并且利用了一种新的学习算法 —— 基于加权行为克隆技术,在模拟环境和真实硬件上均表现出色。
- ABC: 离线模式寻求模仿学习的对抗行为克隆
本文介绍了行为克隆(BC)的关键缺陷,由于 BC 是以最大似然为目标函数,因此在以高斯函数表示学习代理的策略时,BC 对状态条件专家动作分布求取均值导致了问题。 为了解决这个问题,我们引入了 ABC 方法,它包含 GAN 训练的元素,具有寻 - EMNLP文本编辑作为模拟游戏
本研究将文本编辑作为一项模仿游戏,使用行为克隆方法将传统序列转序列数据转化为状态 - 操作演示,通过引入双解码器结构来并行解码操作,实现对操作之间的依赖进行保留,以及利用轨迹增强技术缓解模仿学习常常遇到的分布偏移问题。对一组算术方程基准测试 - AAAI使用人工智能来增强飞行训练,以提高飞行员的训练效率
本文介绍了一种基于人工智能的飞行员训练系统,通过行为克隆学习飞行操纵,从而帮助学生学习如何飞行飞机,并自动检测错误并提供反馈来纠正错误,重点在于直线和水平飞行的训练。
- 实时对话机器人的交互语言
该研究提出了一个框架,用于在现实世界中建立交互式、实时的、自然语言指导的机器人,并开源相关资产 (数据集、环境、基准和策略)。
- 行为克隆用于离线强化学习的可靠条件化
本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性 - ICML从亚优示例中进行判别器加权的离线模仿学习
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 beh - 行为变换器:一石多鸟地克隆 $k$ 种模式
本文介绍了一种名为 BeT 的新技术,该技术利用多模式建模,并结合动作离散化技术和多任务操作校正,在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估,并显示出 BeT 显着改善了解决示范任务的先前最先 - 基于模型的离线模仿学习与非专家数据
通过利用最优和次优策略收集的数据集,我们提出了一种可扩展的基于模型的离线模仿学习算法框架,其最坏子优性与专家样本相关的时间视野呈线性,实验证明在模拟连续控制领域中,该算法始终表现优于行为克隆。
- ICLR何时应该优先选择离线强化学习而不是行为克隆?
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。