- 贝叶斯解决模仿间隙
在缺乏奖励信号的环境中,我们提出了一种基于贝叶斯的解决方案(BIG),通过使用专家演示和指定未演示的探索性行为成本的先验,来推断贝叶斯逆强化学习(IRL)中的奖励后验,从而学习到基于贝叶斯的最优策略。我们的实验表明,BIG 能够在测试时适应 - ROS-LLM: 具备任务反馈和结构化推理的 ROS 框架
通过自然语言提示和来自机器人操作系统(ROS)的上下文信息,我们提出了一个直观的非专业人士机器人编程框架。该框架集成了大型语言模型(LLMs),使非专业人士能够通过聊天界面向系统表达任务要求。它具有与 ROS 集成的 AI 代理与大量开源和 - 命令式学习:机器人自主性的自我监督神经符号学习框架
通过引入自我监督的神经符号化 (NeSy) 计算框架,基于符号推理能力,本文提出了基于指令学习 (IL) 的新的面向机器人自主性的方法,克服了数据驱动方法在应对不断变化的环境中泛化能力差的问题,通过三个主要组件的循环学习,验证了其在路径规划 - ICML基于专家演示的自适应网格生成的迭代尺寸场预测
通过协同网络和在线数据获取方案结合的方式,AMBER 将网格生成视为一种模仿学习问题,能够在推理过程中对任意新的几何形状进行高效准确的模仿,从而实现资源分配和精确模拟工程系统中的复杂物理系统。
- ICMLEvIL:演化策略用于可广泛应用的模仿学习
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
- 利用局部性提高机器人操作中的样本效率
SGRv2 是一种通过改进视觉和动作表示来提高样本效率的模仿学习框架,其中关键的归纳偏置 - 动作局部性假设认为机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和真实环境中进行的广泛实验证明了动作局部性对提高样本效率的重要性。SG - BiKC:健臂机器人操作的关键姿态准确性策略
本文介绍了一种适用于双手操作的新型关键姿势条件一致性策略,该策略以层次化的模仿学习框架为基础,通过预测关键姿势指导轨迹生成,并在一阶段任务完成时标记,通过快速推理生成行动序列,实验结果表明该方法在成功率和操作效率方面优于基线方法。
- 弥合交流鸿沟:人工智能代理通过模仿学习手语
通过从演示中学习,我们研究了通过获取非语言交流技能,特别是手语理解和表达方面的潜在应用,我们专注于对人工智能代理进行模仿学习,使用计算机视觉和深度学习从视频中提取信息,并使用强化学习使代理能够复制观察到的动作,这种方法消除了需要额外硬件的需 - 语言引导的多任务机器人操作的对比模仿学习
本文介绍了一种多任务机器人操纵的逐字逐句学习方法,该方法通过自然语言指令和视觉观察实现在复杂真实环境中执行各种操纵任务的机器人代理。
- CIMRL: 结合仿真与强化学习的安全自动驾驶
通过整合模仿学习和强化学习的方法,我们提出了一种能够在模拟环境中训练驾驶策略的框架,通过利用模仿运动先验和安全约束来改善纯克隆方法的闭环行为。结合强化学习和模仿学习,我们展示了我们的方法在闭环模拟驾驶基准测试中取得了最新的成果。
- 离线强化学习中,价值学习真的是主要瓶颈吗?
离线强化学习的性能问题一直存在着,本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究,发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响,同时,离线强化学习的性能问题主要还是由训练数 - MaIL: 提升 Mamba 的模仿学习
Mamba Imitation Learning (MaIL) is a versatile architecture that improves the performance of state space models and riva - RILe: 强化模仿学习
RILe 是一个学生 - 教师系统,通过根据学生的表现和与专家演示的一致性动态调整奖励函数,实现对不完美数据的鲁棒性,并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。
- 增强模仿学习策略的在线适应性
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实 - 针对受攻击方策略访问有限的强化学习的行为目标攻击
研究考虑攻击强化学习代理,其中对手通过对受害者的状态观察添加敌对修改来控制受害者的行为,提出了一种在黑盒和无盒设置中操纵受害者代理的新方法,无需特定环境启发式,并通过分布匹配问题解决现有的模仿学习算法,实证评估表明该方法攻击性能优于基准方法 - 将代理程序对齐,如同大型语言模型一样
通过仿真学习和对齐模型的方法,本论文研究了如何在复杂的三维环境中训练代理模型以符合特定的行为需求。
- 基于相位幅度缩减的模仿学习
提出了一种利用相位幅度减小方法构建模仿学习框架的研究,用于模仿周期性人体运动。
- 大型语言模型的对抗性矩匹配蒸馏
通过匹配教师行为的行动 - 价值矩关系,我们提出了一种对大型语言模型进行知识蒸馏的模仿学习策略,使用对抗训练算法来同时估计行动 - 价值矩距离并优化学生模型的政策,以此最小化距离,并在任务无关和任务特定实验中取得了新的最优性能。
- 从失误中学习:自动驾驶车辆规划中缓解分布偏移的弱监督方法
应对协变量转移现象的挑战,我们提出了 Learn from Mistakes (LfM) 作为解决方案。通过在各种场景中部署预训练的规划器,LfM 标记离开其即时目标的情况作为错误,并将这些错误对应的环境分类为闭环错误数据集。为了利用闭环错 - ADR-BC: 敌对密度加权回归行为克隆
提出 ADR-BC,通过增强密度支持的行为克隆方法,优化策略并避免多步强化学习中的累积偏差,实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL,并且在 Adroit 和 Kitchen 领域