TGRL：一种教师引导增强学习算法

Jul, 2023

TGRL: An Algorithm for Teacher Guided Reinforcement Learning

Idan Shenfeld, Zhang-Wei Hong, Aviv Tamar, Pulkit Agrawal

TL;DR通过权衡强化学习和师生学习目标的重要性，我们提出了一种有原则的方法，实现了在何时遵循教师和何时使用奖励进行动态自动平衡，这种方法名为‘教师引导强化学习’（TGRL），无需超参数调整在不同领域都能超越强基线。

Abstract

Learning from rewards (i.e., reinforcement learning or RL) and learning to imitate a teacher (i.e., teacher-student learning) are two established approaches for solving →

reinforcement learning teacher-student learning sequential decision-making problems principled approach teacher guided reinforcement learning

发现论文，激发创造

强化学习中的师生课程学习

提出了一种基于师生课程学习的强化学习方法，该方法独立于人类领域知识和手动课程设置，可以改善学生的样本效率和通用性。

Oct, 2022

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

知识驱动强化学习

本文提出一种名为知识引导强化学习（KGRL）的框架，该框架采用一种基于嵌入式的注意机制，可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识，使得 RL 智能体更受社会接受，并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。

Oct, 2022

逆强化学习交互式教学算法

本研究探究了带有教师辅助的反向强化学习问题，提出了一种交互式教学框架，设计了两种具体教学算法：全知教学和黑盒教学，最后在汽车驾驶仿真环境中进行了实验并证明了教学算法的效果。

May, 2019

连续参数环境下深度强化学习课程学习的教师算法

本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Oct, 2019

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

强化学习中的主动教师选择

隐藏效用强盗（HUB）框架及主动教师选择算法（ATS）在多教师情境下学习准确奖励模型方面表现出色，为活跃教师选择提供了有力支持，并促进了对于强化学习的未来研究。

Oct, 2023

GLIDE-RL: 基于强化学习的通过演示进行语言指导

通过多个教师 - 学生代理的课程学习框架，GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法，通过利用强化学习、课程学习、连续学习和语言模型的进展，能够适应以前未见过的语言指令并验证了其有效性。

Jan, 2024

RLTutor: 基于强化学习的自适应教学系统，通过模拟虚拟学生减少交互次数

该研究提出了通过构建学生的虚拟模型来实现教学策略优化的框架，并在实验中使用该数学模型进行了教学，结果表明其性能与传统教学方法相当。该框架可作为理论教学优化和电子学习系统实际应用之间的缓冲。

Jul, 2021

LgTS: 使用 LLM 生成的子目标进行动态任务抽样的强化学习代理

本研究提出了一种新方法，利用大型语言模型（LLM）的规划能力，为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示，同时最小化环境交互次数。

Oct, 2023