交互式强化学习场景下的广泛持久建议

Oct, 2022

交互式强化学习场景下的广泛持久建议

Broad-persistent Advice for Interactive Reinforcement Learning Scenarios

Francisco Cruz, Adam Bignold, Hung Son Nguyen, Richard Dazeley, Peter Vamplew

TL;DR本文提出保留和重复使用提供的知识的方法，允许训练者提供与当前状态不止相关的一般建议。实验结果表明，使用宽持久性建议能够大幅提高代理的性能，同时减少训练所需的交互次数。

Abstract

The use of interactive advice in reinforcement learning scenarios allows for speeding up the learning process for autonomous agents. Curre

interactive advice reinforcement learning autonomous agents knowledge retention broad-persistent advice

发现论文，激发创造

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

深度强化学习的方法论建议收集和重用

使用强化学习结合深度神经网络在 Atari 游戏上进行研究，提出使用另一个神经网络计算不确定度的方法来指导行动建议，结果表明双重不确定度可提高学习性能。

Apr, 2022

强化学习智能体教学的学习

本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下，强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一，我们研究了影响此设置下建议质量的几个关键因素，例如教师的平均表现，其方差以及奖励折现在建议中的重要性。实验表明，变异系数 (CV) 作为选择生成建议策略的统计量具有重要的非平凡意义。第二，本文研究了在预算下分配建议的策略学习。虽然相关文献中大多数方法都依赖于启发式方法进行建议分配，但我们将问题进行学习，并提出了一种新的强化学习算法，该算法能够学习何时提供建议，适应于学生和手头的任务。此外，我们认为在预算下学习建议是一个更通用的学习问题的例子：受限开发强化学习。

Jul, 2017

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

多智能体强化学习中多个独立顾问的学习

本文提出了一种基于两级 Q-learning 架构的学习模型，可以同时从多个独立顾问中学习，以提高多智体强化学习在复杂环境下的效率和性能

Jan, 2023

意见引导的强化学习

人类导引在强化学习中经常被用来提升学习代理的性能。然而，人类的见解通常只是意见和猜测，而不是明确的论证。尽管意见存在不确定性，但它们往往比硬证据早出现。因此，通过意见来引导强化学习代理提供了更有效的学习过程的潜力，但也面临以形式化方式建模和管理意见的挑战。本文介绍了一种通过意见来引导强化学习代理的方法，并提供了一种端到端的方法来建模和管理顾问的意见。通过合成和人类顾问以及不同级别的不确定性和多个建议策略的评估，我们评估了该方法的效用。结果表明，即使是不确定的意见也能提高强化学习代理的性能，从而获得更高的奖励、更高效的探索和更好的加强策略。虽然我们在一个简化的拓扑运行示例中演示了我们的方法，但我们的方法也适用于具有更高维度的复杂问题。

May, 2024

通过自然语言指导的语义探索提高深度强化学习的效率

用检索式方法通过神经网络编码，选择性、高效地与 oracle 进行交互，并使用 oracle 的答案更新 agent 的策略和值函数，从而在强化学习任务中大幅提高效率。

Sep, 2023

通过知识图谱增强的强化学习交互式推荐系统

本研究探讨了在交互式推荐系统中，如何使用知识图谱来解决强化学习中的样本效率问题以及用户反馈稀疏问题，具体包括引导候选项选择，增强项和用户状态的表示和传递用户偏好。实验结果表明，该方法具有显著的改进优势。

Jun, 2020

基于人机互动的智能体无关强化学习

本论文探讨了一种 agent-agnostic 模式的 Human-in-the-Loop 强化学习教学方案，以期将人类教师的有益特性融入强化学习中，同时试验了在简单领域中应用 action pruning、reward shaping 和 training in simulation 等已有方法并将其表现为本模式的特例。

Jan, 2017