强化学习智能体教学的学习

Jul, 2017

Learning to Teach Reinforcement Learning Agents

Anestis Fachantidis, Matthew E. Taylor, Ioannis Vlahavas

TL;DR本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下，强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一，我们研究了影响此设置下建议质量的几个关键因素，例如教师的平均表现，其方差以及奖励折现在建议中的重要性。实验表明，变异系数 (CV) 作为选择生成建议策略的统计量具有重要的非平凡意义。第二，本文研究了在预算下分配建议的策略学习。虽然相关文献中大多数方法都依赖于启发式方法进行建议分配，但我们将问题进行学习，并提出了一种新的强化学习算法，该算法能够学习何时提供建议，适应于学生和手头的任务。此外，我们认为在预算下学习建议是一个更通用的学习问题的例子：受限开发强化学习。

Abstract

In this article we study the transfer learning model of action advice under a budget. We focus on →

transfer learning reinforcement learning budget advice pac-man

发现论文，激发创造

深度强化学习的方法论建议收集和重用

使用强化学习结合深度神经网络在 Atari 游戏上进行研究，提出使用另一个神经网络计算不确定度的方法来指导行动建议，结果表明双重不确定度可提高学习性能。

Apr, 2022

多智能体强化学习中可解释的行动建议

介绍了基于解释的行动建议技术，其中老师提供行动建议和相关的解释。实验证明，该框架在单一智能体和多智能体情境下均可提高策略回报和收敛速度。

Nov, 2022

强化学习中多位教师提供理论基础的政策建议及其在负迁移中的应用

通过多个代理老师的建议，介绍了一种自主探索和老师建议结合的算法，并量化了负面迁移可能发生的情况。

Apr, 2016

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

多导师强化学习

通过分布式学习将单智能体 RL 问题分配给多个学习者，并使用本地化规划策略，引入了一种新的基于共情策略的解决方案，并在实验中验证了其在果实收集任务上的效果。

Apr, 2017

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

基于 MCTS 的深度强化学习的行动指导

本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架，可以在异步分布式深度强化学习方法中集成非专家演示者，即使用 Monte Carlo 树搜索等策略算法，并以两种玩家为例进行测试，相较于纯粹的深度强化学习算法，我们的提出的方法可以更快地学习，并收敛于更好的策略。

Jul, 2019