利用强化学习代理为人在环境中提供遵守建议的验证

Oct, 2022

利用强化学习代理为人在环境中提供遵守建议的验证

Advice Conformance Verification by Reinforcement Learning agents for Human-in-the-Loop

Mudit Verma, Ayush Kharkwal, Subbarao Kambhampati

TL;DR本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Abstract

human-in-the-loop (HiL) reinforcement learning is gaining traction in domains with large action and state spaces, and sparse rewards by allowing the agent to take advice from HiL. Beyond advice accommodation, a s

human-in-the-loop reinforcement learning advice-conformance verification preference tree interpretable means

发现论文，激发创造

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

基于人机互动的智能体无关强化学习

本论文探讨了一种 agent-agnostic 模式的 Human-in-the-Loop 强化学习教学方案，以期将人类教师的有益特性融入强化学习中，同时试验了在简单领域中应用 action pruning、reward shaping 和 training in simulation 等已有方法并将其表现为本模式的特例。

Jan, 2017

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

意见引导的强化学习

人类导引在强化学习中经常被用来提升学习代理的性能。然而，人类的见解通常只是意见和猜测，而不是明确的论证。尽管意见存在不确定性，但它们往往比硬证据早出现。因此，通过意见来引导强化学习代理提供了更有效的学习过程的潜力，但也面临以形式化方式建模和管理意见的挑战。本文介绍了一种通过意见来引导强化学习代理的方法，并提供了一种端到端的方法来建模和管理顾问的意见。通过合成和人类顾问以及不同级别的不确定性和多个建议策略的评估，我们评估了该方法的效用。结果表明，即使是不确定的意见也能提高强化学习代理的性能，从而获得更高的奖励、更高效的探索和更好的加强策略。虽然我们在一个简化的拓扑运行示例中演示了我们的方法，但我们的方法也适用于具有更高维度的复杂问题。

May, 2024

学习制定注重依从性的建议

考虑到人对人工智能建议的忽视以及人工智能在最相关时刻有选择性地提供建议的需要，本文提出了一个顺序决策模型，该模型考虑到人的依附水平并引入了一个推迟选项，以便机器能够暂时不提供建议，并提供了能够学习最佳建议政策并仅在关键时间点提供建议的学习算法。与通用强化学习算法相比，我们的专门化学习算法不仅具有更好的理论收敛性能，而且表现出强大的实证性能。

Oct, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性

本文探讨应用于人类 - 人工智能加强学习中的 COACH 算法，分析了不同类型的反馈策略对算法的影响，提出了一种收敛性更好的变种 E-COACH，并将其与其他强化学习算法进行比较。

Sep, 2021

基于人类偏好和步骤级解释的训练偏好驱动强化学习

人在环路强化学习中提供了一种可以让非专家用户通过各种界面进行训练的方法。我们提出了一种新的基于偏好的学习方法，为人们提供了更富表现力的界面，以便其表达对轨迹的偏好，并提供了解释以提高学习速度。

May, 2024