提出了一种新的框架 CoDA,旨在解决数据驱动模拟物理系统无法泛化到共享相同一般动态的新系统的问题,该框架结合了上下文信息的动态调整和超网络,实现了快速的适应和更好的泛化性能。
Feb, 2022
本文介绍了一种健壮的模仿学习(IL)框架,可以提高在环境动态发生扰动时的鲁棒性。通过模拟多个不同环境的专家来增强鲁棒性,并通过利用 Jensen-Shannon 散度来最小化风险以提高算法的性能。结果表明,该算法相比于传统的 IL 方法可以显著提高在动态扰动下的鲁棒性。
Jun, 2022
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020
LEADS 是一种新的框架,通过在共享模型中捕捉共同动态和捕获环境特定动态的额外项,利用已知环境的共享性和差异性来提高模型的泛化能力。该方法在理论和实验上的结果表明,这种新的设置可以利用从依赖于环境的数据中提取的知识,并改善已知和新环境的泛化。
Jun, 2021
我们研究了如何将上下文信息引入行为学习以提高泛化性能,并引入了一个神经网络架构 —— 决策适配器,该架构生成适配器模块的权重,并根据上下文信息调整智能体的行为。实验证明,与以往方法相比,决策适配器在几个环境中表现出更好的泛化性能,并且相对于一些替代方法,决策适配器对于无关变量的干扰更具鲁棒性。
提出了一种利用隐式模型进行的实时自适应实验的新方法 - iDAD,通过学习设计策略网络来摊销贝叶斯最优实验设计的成本,并可在实验时快速部署,可以在毫秒内做出设计决策。
Nov, 2021
通过与环境的有针对性互动,我们提出了一种基于信息的方法来加速机器人的能力发现过程,从而减少对大量标注数据集的依赖,实验证明这种方法在仿真和真实世界任务中都能有效地发现视觉能力,提高数据效率。
May, 2024
通过利用少量真实世界数据来自动完善模拟模型并规划准确的控制策略,在多个具有挑战性的机器人操作任务中,我们展示了这种模式对识别关节、质量和其他物理参数的有效性,并且说明了只需少量真实世界数据即可进行有效的模拟到真实世界的转换。
Apr, 2024
该研究提出了使用主动推理的一种新型车辆跟随建模方法,该方法具有与数据驱动的模型相当的行为灵活性,同时保持可解释性。通过基准分析,该模型被证明可以显着地预测驾驶控制,并表明需要进一步研究以建立行驶风格并利用更多样化的数据集进行模型训练。
Mar, 2023