异质智能体中的自适应教学：在稀疏奖励场景中平衡惊喜

May, 2024

异质智能体中的自适应教学：在稀疏奖励场景中平衡惊喜

Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios

Emma Clark, Kanghyun Ryu, Negar Mehr

TL;DR学习演示（LfD）是一种有效的训练系统的方法，使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习，而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架，该框架基于 “惊喜” 的概念，通过改进教师代理引起环境反应的同时，最小化学生代理对演示的惊喜来适应两者之间的差异。我们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证我们的方法。

Abstract

learning from demonstration (LfD) can be an efficient way to train systems with analogous agents by enabling ``Student'' agents to learn from the demonstrations of the most experienced ``Teacher'' agent, instead of training their policy in parallel. However, when there are discrepancie

learning from demonstration teacher-student learning framework heterogeneity surprise sparse-reward environments

发现论文，激发创造

稀疏奖励下的不匹配任务演示增强学习

该论文提出了一种名为保守奖励塑造的学习方法，用于解决强化学习中的稀疏奖励问题，并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。

Dec, 2022

异构演示中终身学习的策略探索与混合

本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD)，通过提取不同人给出的演示中的共同知识，构建混合策略以实现个性化和高效的机器人学习，实验结果表明，该算法表现出了明显的优越性。

Feb, 2022

如何通过示范高效地教导机器人？

通过使用信息熵作为准则，建议教师给出更具信息量的示范样例，从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练，从熵最高的区域产生额外的示范，并在同一任务（保留）和新任务（转移）上测试性能，结果发现机器人的学习效率大幅提高，与启发式规则相比提高了 210%。

Oct, 2023

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

自动设计有趣的多智能体环境

通过提供内在的奖励机制，增加多智能体环境中 RL 学习的效率，我们在多智能体 Hide and Seek 和单智能体迷宫任务中，考察了一系列根据预测问题构建的内在老师奖励，并发现其中价值不一致是最为稳健和高效的奖励方式。

Mar, 2022

弥合示范学习中的动作空间不匹配

使用 Morphological Adaptation in Imitation Learning (MAIL) 框架，从 3D 带障碍物情况下，带有两个末端执行器的机器人的演示中训练出一个末端执行器的 Franka Panda 机器人的可视化控制策略，比 Learning from Demonstrations 和非 Learning from Demonstrations 基线方法提高了 27% 的成功率，并且在面对不同颜色、厚度、大小和材料等多变性的衣物的姿态（旋转和平移）时展现出很好的通用性。

Apr, 2023

面向从次优演示中高样本效率的学徒学习

使用 Systematic Self-Supervised Reward Regression（S3RR）框架，通过系统性的替代轨迹退化，可以实现从非优示范中学习的能力，比现有的学习技术更为高效。

Oct, 2021

如何协作训练异质强化学习代理，使其适应稀疏回报的环境？

本研究结合内在动机和传递学习的思想，探讨了基于行动者 - 评论家模型共享参数和结合内在动机信息的多智能体协同学习算法，在探索和学习效率上有一定提升，并强调正确调节外部和内部奖励间的重要性，以避免不良学习行为。

Feb, 2022

强化学习中的主动教师选择

隐藏效用强盗（HUB）框架及主动教师选择算法（ATS）在多教师情境下学习准确奖励模型方面表现出色，为活跃教师选择提供了有力支持，并促进了对于强化学习的未来研究。

Oct, 2023

通过概率图示教学进行示范学习

通过对 2D 场景图像进行示范轨迹草图，在三维任务空间中生成运动轨迹的概率模型，以此作为一种新型的 LfD（Learning for Demonstration）范式。

Sep, 2023