TGRL:一种教师引导增强学习算法
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
本文提出一种名为知识引导强化学习(KGRL)的框架,该框架采用一种基于嵌入式的注意机制,可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识,使得 RL 智能体更受社会接受,并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。
Oct, 2022
本研究探究了带有教师辅助的反向强化学习问题,提出了一种交互式教学框架,设计了两种具体教学算法:全知教学和黑盒教学,最后在汽车驾驶仿真环境中进行了实验并证明了教学算法的效果。
May, 2019
本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明,教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境,使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型,我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究,通过对 BipedalWalker 环境的参数化变体,我们研究了算法快速个性化建立不同学生的学习计划的效率,以及对可学环境 / 不可学环境的比率的鲁棒性,以及对于高维参数空间的可扩展性
Oct, 2019
隐藏效用强盗(HUB)框架及主动教师选择算法(ATS)在多教师情境下学习准确奖励模型方面表现出色,为活跃教师选择提供了有力支持,并促进了对于强化学习的未来研究。
Oct, 2023
通过多个教师 - 学生代理的课程学习框架,GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法,通过利用强化学习、课程学习、连续学习和语言模型的进展,能够适应以前未见过的语言指令并验证了其有效性。
Jan, 2024
该研究提出了通过构建学生的虚拟模型来实现教学策略优化的框架,并在实验中使用该数学模型进行了教学,结果表明其性能与传统教学方法相当。该框架可作为理论教学优化和电子学习系统实际应用之间的缓冲。
Jul, 2021
本研究提出了一种新方法,利用大型语言模型(LLM)的规划能力,为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示,同时最小化环境交互次数。
Oct, 2023