- 异质智能体中的自适应教学:在稀疏奖励场景中平衡惊喜
学习演示(LfD)是一种有效的训练系统的方法,使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习,而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架,该框架基于 “惊喜” - 从次优演示中学习奖励的应用于外科电凝
通过学习演示(LfD)技术实现自动化机器人手术非常具有挑战性,本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法,并通过强化学习(RL)优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法,我们证明了即使提供的 - 机器人运动生成与调整的导引解码
我们通过集成演示学习(LfD)到运动生成过程中,在复杂环境中(包括障碍物、通过点等)解决了高自由度机械臂的运动生成问题。我们通过在大规模模拟轨迹数据集上训练一个基于条件变分自动编码器变压器的结构,学习了关键的运动生成技能,并将其适应辅助任务 - 条件神经专家过程用于从示范中学习
通过提出一种名为条件神经专家过程(CNEP)的 LfD 框架,利用潜在空间中的内在信息将不同模式的演示分配给不同的专家网络,无需监督以确定轨迹所属的模式,该框架提供了改进的建模性能、轨迹综合能力和障碍物避免任务的能力。
- 策略学习的全点轨迹建模
通过使用预训练的轨迹模型,提出了一种利用视频演示来预测视频帧内任意点的未来轨迹,从而实现对机器人进行精确控制指导,使其能够在最少的动作标记数据下学习到鲁棒的视觉运动策略。
- 基于 Koopman 的深度学习动态运动原理
提出了一个新方法,通过结合 Koopman 操作符和动态运动原理与示教学习,将非线性动力系统投影到线性潜在空间中,从而实现复杂动作的解决方案。
- 安全感知的因果表示法:自主驾驶中可信赖强化学习
自动驾驶中,借助结构化场景信息的安全感知结构化场景表示(FUSION)方法的引入为学习自适应的端到端驾驶策略提供了创新方法。通过构建基于因果关系的奖励、成本、状态和行动空间分解的框架,FUSION 在动态交通环境下进行结构化顺序推理,实现了 - 离线强化学习和模仿学习的引导式数据增强
通过人工引导的数据增强 (GuDA) 框架实现学习从示范中,以通过离线强化学习和行为克隆算法提取策略,有效地利用少量次优演示来提升机器人控制策略的学习性能。
- 如何通过示范高效地教导机器人?
通过使用信息熵作为准则,建议教师给出更具信息量的示范样例,从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练,从熵最高的区域产生额外的示范,并在同一任务(保留)和新任务(转移)上测试性能,结果发现机器人的学习效率大幅提高,与启发式 - 机器人从示范中强化学习处理可变形食品物体
本文提出了一种基于示教学习(LfD)的鲁棒学习策略,用于机器人抓取食品可变形物体,通过 RGB-D 图像和触觉数据的融合来实现有效的机器人操纵,验证并证明了该方法在脆弱和可变形食品物体领域具有广泛的潜在应用。
- 通过前向触觉表示的示范学习力导向动作的少样本学习
通过半监督的学习方式,本研究在操作机器人通过感知力及学习示范来识别实物属性并生成所需运动的过程中,采用了力传感、从示范学习、无监督数据和触觉表示编码器等关键技术。结果表明,通过预训练,该学习方法在未知海绵上成功地识别了物理属性并生成了期望的 - 通过弹性动态系统运动策略实现具有稳定性保证的任务泛化
弹性动态系统(Elastic-DS)是一种新颖的基于动态系统的学习与泛化方法,将任务参数嵌入到基于高斯混合模型(GMM)和线性参数变化(LPV)动态系统的公式中,并通过弹性高斯混合模型与 Laplacian Editing 的转换重新估计 - RoboTAP:用于少样本视觉模仿的任意点追踪
我们探讨了密集跟踪作为一种表征工具,使机器人能够更快、更通用地从示教中学习,并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务,如形状匹配、堆叠,甚至全路径跟踪任务,如涂胶并粘合物体,这些示教仅需数分钟即可收集。
- 使用相对参数化方法学习机器人广义双手协调运动的 BiRP 模型 (BiRP: Learning Robot Generalized Bimanual Coordination using Relative Parameterization Method on Human Demonstration)
本文提出了一种基于变量表示的双手协调学习方法,使用高斯混合模型来描述人体展示中最相关的协调模式,并将其推广到新任务参数中以确保时空协调。
- 基于控制壁函数的安全反向强化学习
本文提出了一个名为 CBFIRL 的安全 IRL 框架,利用控制屏障函数(CBF)增强 IRL 策略的安全性,通过梯度下降联合优化 CBF 要求灵感的损失函数和 IRL 方法的目标,在实验中表明我们的框架相较于没有 CBF 的 IRL 方法 - 稀疏奖励下的不匹配任务演示增强学习
该论文提出了一种名为保守奖励塑造的学习方法,用于解决强化学习中的稀疏奖励问题,并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。
- 使用模仿学习和力控制的可普适的人机协作装配
本文介绍了一种基于演示学习和姿态估计的人机协作装配系统,使机器人能够适应于人类操作中的不确定性,我们的实验表明,系统能成功地适应于不同的目标位置。
- MILD: 多模态交互潜在动力学用于学习人机交互
本文提出了一种名为 MILD 的多模态交互潜在动力学方法,将深度学习和概率机器学习结合起来,用于学习人与机器人之间的互动动力学,并在人 - 人互动的演示中进行了实验验证,该方法比相关研究生成更准确的机器人轨迹,还能够直接从基于摄像头的姿势估 - 基于环境限制的示教学习增强
文章介绍了一种学习自演示 (LfD) 方法,用于应对带有关节机制的接触丰富的操作任务。从单个人类演示中提取的策略可以推广到相同类型的不同机制,并且对环境变化具有鲁棒性,其关键是通过与环境有目的地交互来自主增强初始演示以收集附加信息。针对多 - 从专家演示中学习可变形物体操作
本论文提出了一种新颖的基于演示的学习方法 —— 来自演示的可变形操作(DMfD),用于解决可变形操纵任务,它能够有效地处理高维空间和图像观测,并在 SoftGym 组件上取得了较高的性能。同时,本文还在两个具有挑战性的环境中进行了折叠布料任