带有不完美在线演示的保护策略优化

ICLRMar, 2023

带有不完美在线演示的保护策略优化

Guarded Policy Optimization with Imperfect Online Demonstrations

Zhenghai Xue, Zhenghao Peng, Quanyi Li, Zhihan Liu, Bolei Zhou

TL;DR本文介绍了一种名为 Teacher-Student Shared Control (TS2C) 的离线增强学习算法，该算法基于轨迹价值估计，在保证安全性的同时，有效地控制了探索过程并成功地将不同性能水平的教师智能体纳入学生智能体的训练。

Abstract

The teacher-student framework (TSF) is a reinforcement learning setting where a teacher agent guards the training of a student agent by intervening and providing online demonstrations. Assuming optimal, the teach

reinforcement learning teacher-student framework off-policy trajectory-based value estimation exploration

发现论文，激发创造

学习教学：提高师生学习中的样本效率，用于模拟到真实场景的迁移

模拟到现实的迁移是机器人学习的一个基本问题，本文提出了一种学习框架，通过引入师生学习范式和样本高效性，解决了培训中噪声观测造成的困难，实现了模拟环境下机器人的高性能表现。

Feb, 2024

强化学习中多位教师提供理论基础的政策建议及其在负迁移中的应用

通过多个代理老师的建议，介绍了一种自主探索和老师建议结合的算法，并量化了负面迁移可能发生的情况。

Apr, 2016

有条件的师生学习

通过提出一种条件性的教师 - 学生 (T/S) 学习方案，在一定程度上解决了 T/S 学习中教师模型不完美时可能会向学生模型提供错误指导的问题，而且在环境适应和说话人适应方面获得了比 T/S 学习更好的结果。

Apr, 2019

TGRL：一种教师引导增强学习算法

通过权衡强化学习和师生学习目标的重要性，我们提出了一种有原则的方法，实现了在何时遵循教师和何时使用奖励进行动态自动平衡，这种方法名为‘教师引导强化学习’（TGRL），无需超参数调整在不同领域都能超越强基线。

Jul, 2023

双重策略蒸馏

本文提出了一种双学习者的框架，名为双重策略蒸馏（DPD），其中两个学习者在同一环境中运行，以探索环境的不同方面并相互提取知识以增强他们的学习，并对几个连续控制任务进行实验，表明该框架可以在没有使用昂贵的教师模型的情况下，在具有学习基础的代理和函数逼近的情况下获得优越的性能。

Jun, 2020

异质智能体中的自适应教学：在稀疏奖励场景中平衡惊喜

学习演示（LfD）是一种有效的训练系统的方法，使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习，而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架，该框架基于 “惊喜” 的概念，通过改进教师代理引起环境反应的同时，最小化学生代理对演示的惊喜来适应两者之间的差异。我们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证我们的方法。

May, 2024

LgTS: 使用 LLM 生成的子目标进行动态任务抽样的强化学习代理

本研究提出了一种新方法，利用大型语言模型（LLM）的规划能力，为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示，同时最小化环境交互次数。

Oct, 2023

教师 - 学生课程学习

我们使用 Teacher-Student Curriculum Learning（TSCL）框架进行自动课程学习，该框架依赖于一系列的 Teacher 算法，这些算法使得学生通过选择更好的子任务进行训练，并通过解决遗忘问题来提高学习速度。我们在两个任务中展示出 TSCL 的性能优于手工设计的 curricula，其中包括了对一个 Minecraft 的迷宫进行自动解决，并且在一个数量级上更快地学习。

Jul, 2017

SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏

提出一种基于学生的教师网络训练框架 SoTeacher，通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法，实验证明该方法适用于几乎所有的教师 - 学生架构对，并且可以显著、一致地提高学生的性能。

Jun, 2022

对抗式师生学习在无监督域适应中的应用

本文提出采用对抗方式的教师 - 学生学习方法，以解决语音信号在目标领域里的可靠性问题，能够学习各种条件下的非监督领域适应，并抑制多种因素导致的条件变异，达到了比较好的词错误率改进效果。

Apr, 2018