使用解释和上下文感知的数据增强扩大人类引导的强化学习管道

Jun, 2020

使用解释和上下文感知的数据增强扩大人类引导的强化学习管道

Widening the Pipeline in Human-Guided Reinforcement Learning with Explanation and Context-Aware Data Augmentation

Lin Guan, Mudit Verma, Sihang Guo, Ruohan Zhang, Subbarao Kambhampati

TL;DR本文研究如何将人类知识融入深度加强学习中，并提出 EXPAND 方法，在五项任务中展示出用于处理人类知识的可行性，该方法显着优于仅利用评估反馈的基线方法和来自监督学习的人类解释的方法。

Abstract

human explanation (e.g., in terms of feature importance) has been recently used to extend the communication channel between human and agent in interactive machine learning. Under this setting, human trainers provide not only the ground truth but also some form of explanation. However,

human explanation interactive machine learning reinforcement learning visual explanations sample efficiency

发现论文，激发创造

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

强化学习的经验性解释

通过 Experiential Explanations 生成局部反事实解释来帮助解释强化学习代理的决策，利用影响预测模型来恢复失去的关于策略如何反映环境的情境信息，并在人类评估研究中实现了更高的正确预测率和更高的解释实用性。

Oct, 2022

目标的脚印：从人 - 环交互反馈中获得目标条件的探索

通过非专业用户提供的低质量、非同步和嘈杂的反馈，人类引导探索（HuGE）技术在强化学习中引导探索，无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现：人类反馈引导探索，而来自探索数据的自我监督学习产生无偏的策略。HuGE 能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外，这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。

Jul, 2023

基于人类偏好和步骤级解释的训练偏好驱动强化学习

人在环路强化学习中提供了一种可以让非专家用户通过各种界面进行训练的方法。我们提出了一种新的基于偏好的学习方法，为人们提供了更富表现力的界面，以便其表达对轨迹的偏好，并提供了解释以提高学习速度。

May, 2024

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

利用解释使视觉和语言模型更加基于实际 - HINT 方法

本文提出了一种名为 HINT 的通用方法，通过有效利用人类演示来改善视觉基础，以优化深度神经网络的对视觉概念的敏感性，并在视觉问答和图像描述任务中应用，在仅利用 6% 的训练数据的人类关注示例下，优于 VQA-CP 和强健字幕的主要方法。

Feb, 2019

一个稳健的指导视觉解释的框架

提出了使用 RES 框架进行监督解释的方法以提高深度神经网络的外推泛化性和内在的可解释性，该框架可解决标注不准确、区域不完整和分布不一致等挑战，经测试在两种实际图像数据集上均表现较好。

Jun, 2022

评估强化学习场景中机器人行动的类人解释

本文探讨了透明度逐渐成为自主智能系统的必要品质，提供了人性化的基于成功概率的解释方法，并通过用户调查证明该种解释对于非专业人士更易理解和接受。

Jul, 2022