异构演示中终身学习的策略探索与混合

AAAIFeb, 2022

异构演示中终身学习的策略探索与混合

Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous Demonstration

Sravan Jayanthi, Letian Chen, Matthew Gombolay

TL;DR本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD)，通过提取不同人给出的演示中的共同知识，构建混合策略以实现个性化和高效的机器人学习，实验结果表明，该算法表现出了明显的优越性。

Abstract

learning from demonstration (lfd) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to →

learning from demonstration lfd robotics algorithm policy

发现论文，激发创造

如何通过示范高效地教导机器人？

通过使用信息熵作为准则，建议教师给出更具信息量的示范样例，从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练，从熵最高的区域产生额外的示范，并在同一任务（保留）和新任务（转移）上测试性能，结果发现机器人的学习效率大幅提高，与启发式规则相比提高了 210%。

Oct, 2023

稀疏奖励下的不匹配任务演示增强学习

该论文提出了一种名为保守奖励塑造的学习方法，用于解决强化学习中的稀疏奖励问题，并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。

Dec, 2022

面向从次优演示中高样本效率的学徒学习

使用 Systematic Self-Supervised Reward Regression（S3RR）框架，通过系统性的替代轨迹退化，可以实现从非优示范中学习的能力，比现有的学习技术更为高效。

Oct, 2021

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

异质智能体中的自适应教学：在稀疏奖励场景中平衡惊喜

学习演示（LfD）是一种有效的训练系统的方法，使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习，而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架，该框架基于 “惊喜” 的概念，通过改进教师代理引起环境反应的同时，最小化学生代理对演示的惊喜来适应两者之间的差异。我们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证我们的方法。

May, 2024

基于环境限制的示教学习增强

文章介绍了一种学习自演示 (LfD) 方法，用于应对带有关节机制的接触丰富的操作任务。从单个人类演示中提取的策略可以推广到相同类型的不同机制，并且对环境变化具有鲁棒性，其关键是通过与环境有目的地交互来自主增强初始演示以收集附加信息。针对多 DOF 的复杂机制的实际实验表明，我们的方法可以可靠地完成任务。

Oct, 2022

通过概率图示教学进行示范学习

通过对 2D 场景图像进行示范轨迹草图，在三维任务空间中生成运动轨迹的概率模型，以此作为一种新型的 LfD（Learning for Demonstration）范式。

Sep, 2023

MILD: 多模态交互潜在动力学用于学习人机交互

本文提出了一种名为 MILD 的多模态交互潜在动力学方法，将深度学习和概率机器学习结合起来，用于学习人与机器人之间的互动动力学，并在人 - 人互动的演示中进行了实验验证，该方法比相关研究生成更准确的机器人轨迹，还能够直接从基于摄像头的姿势估计中学习生成轨迹。

Oct, 2022

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

通过动态运动基元增强顺应性的人机技能转移

提出了一种系统的方法来从人类演示中提取动态特征，以自动调整 DMP 框架中的参数，此方法可与 LfD 和 RL 一同使用，可使机器人更有效地探索可能的轨迹，从而显着提高机器人的遵从性，并在实际的人机交互实验中得以验证。

Apr, 2023