强化学习中多位教师提供理论基础的政策建议及其在负迁移中的应用

IJCAIApr, 2016

强化学习中多位教师提供理论基础的政策建议及其在负迁移中的应用

Theoretically-Grounded Policy Advice from Multiple Teachers in Reinforcement Learning Settings with Applications to Negative Transfer

PDF

Yusen Zhan, Haitham Bou Ammar, Matthew E. taylor

TL;DR通过多个代理老师的建议，介绍了一种自主探索和老师建议结合的算法，并量化了负面迁移可能发生的情况。

Abstract

Policy advice is a transfer learning method where a student agent is able to learn faster via advice from a teacher. However, both this and other reinforcement learning transfer methods have little theoretical an

transfer learning reinforcement learning teacher agents regret bounds negative transfer

发现论文，激发创造

强化学习智能体教学的学习

本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下，强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一，我们研究了影响此设置下建议质量的几个关键因素，例如教师的平均表现，其方差以及奖励折现在建议中的重要性。实验表明，变异系数 (CV) 作为选择生成建议策略的统计量具有重要的非平凡意义。第二，本文研究了在预算下分配建议的策略学习。虽然相关文献中大多数方法都依赖于启发式方法进行建议分配，但我们将问题进行学习，并提出了一种新的强化学习算法，该算法能够学习何时提供建议，适应于学生和手头的任务。此外，我们认为在预算下学习建议是一个更通用的学习问题的例子：受限开发强化学习。

Jul, 2017

深度强化学习的方法论建议收集和重用

使用强化学习结合深度神经网络在 Atari 游戏上进行研究，提出使用另一个神经网络计算不确定度的方法来指导行动建议，结果表明双重不确定度可提高学习性能。

Apr, 2022

多智能体强化学习中可解释的行动建议

介绍了基于解释的行动建议技术，其中老师提供行动建议和相关的解释。实验证明，该框架在单一智能体和多智能体情境下均可提高策略回报和收敛速度。

Nov, 2022

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

带有策略建议的强化学习的遗憾界

本文提出了一种强化学习与策略建议（RLPA）算法，可以利用提供的一组输入策略并学会使用最佳策略来解决当前的强化学习任务。我们证明了算法的深度复杂度和次线性遗憾与最佳输入策略相对应，而这种遗憾和复杂度与状态和动作空间的大小无关。我们的实验模拟支持我们的理论分析。这表明 RLPA 可能在提供先前良好策略的大型领域中具有重要优势。

May, 2013

多智能体强化学习中多个独立顾问的学习

本文提出了一种基于两级 Q-learning 架构的学习模型，可以同时从多个独立顾问中学习，以提高多智体强化学习在复杂环境下的效率和性能

Jan, 2023

成长式批次强化学习中的教师向学生知识转移

本文探讨在离线和有人专家参与的环境下，如何利用专家提供的数据及信息来改善演员 - 评论家方法的样本需求复杂性和覆盖率，并在 DeepMind Control Suite 上验证了这一方法。

May, 2023

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

TGRL：一种教师引导增强学习算法

通过权衡强化学习和师生学习目标的重要性，我们提出了一种有原则的方法，实现了在何时遵循教师和何时使用奖励进行动态自动平衡，这种方法名为‘教师引导强化学习’（TGRL），无需超参数调整在不同领域都能超越强基线。

Jul, 2023

带有不完美在线演示的保护策略优化

本文介绍了一种名为 Teacher-Student Shared Control (TS2C) 的离线增强学习算法，该算法基于轨迹价值估计，在保证安全性的同时，有效地控制了探索过程并成功地将不同性能水平的教师智能体纳入学生智能体的训练。

Mar, 2023