利用人类辅助完成顺序决策任务的最新进展

Jul, 2021

利用人类辅助完成顺序决策任务的最新进展

Recent Advances in Leveraging Human Guidance for Sequential Decision-Making Tasks

Ruohan Zhang, Faraz Torabi, Garrett Warnell, Peter Stone

TL;DR本文综述了五种最近主要依赖于人类指导的机器学习框架及其动机，假设和实施，并讨论可能的未来研究方向。

Abstract

A longstanding goal of artificial intelligence is to create artificial agents capable of learning to perform tasks that require sequential decision making. Importantly, while it is the artificial agent that learn

artificial intelligence sequential decision making learning agents human guidance machine learning frameworks

发现论文，激发创造

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

学习向人类请求丰富和有上下文作用的信息的框架

通过使用互动框架，让人类协助 AI agent 克服自身局限，并在以前未见过的环境中解决导航问题。

Oct, 2021

使用视觉语言模型指导人类决策者的学习

机器学习模型在高风险任务中辅助人类决策，通过提供可解释且任务特定的指导，而不是取代人类专家的决策能力。

Mar, 2024

AI 所能做什麼并不重要，重要的是 AI 應該做什麼：走向任務委派的框架

人们更青睐于人机交互的 “机器协助” 模式，而不是完全的人工智能自动控制模式。其中，信任是与人类最佳人机委派偏好相关性最高的因素。

Feb, 2019

人工智能与人类的融合决策系统学习范式

每天我们越来越依赖于机器学习模型来自动化和支持高风险任务和决策。这篇论文提出了混合决策系统的分类法，提供了一个概念和技术框架，以理解当前计算机科学文献中的人机交互模型。

Feb, 2024

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

序贯决策中的人类建模：通过人类感知人工智能之镜透析

人机感知人工智能是一种以设计为导向的范式，专注于对其可能与之互动的人进行建模，并通过使用这些维度作为工具，了解和审查与人工智能系统相关的当前工作情况。

May, 2024

学习何时向人类决策者提供建议

通过对已有的案例进行分析，本文提出了交互式人工智能决策辅助系统的设计，旨在通过学习人类的选择来决定何时提供算法支持，从而提高决策的准确性和可靠性。作者在美国刑事司法系统的前期释放审判方面进行了大规模实验，并发现交互式辅助系统能够在必要的时候提供准确的建议，与固定的非交互式系统相比较，可以显著提高人类的决策水平。同时，交互式辅助系统还具有促进人类学习、保护人类决策者补充优势、促进对建议的更积极响应等优点。

Sep, 2022

利用奖励塑形模仿学习方法合成生成类似人类数据以解决序列决策问题

本研究通过结合奖励塑造和模仿学习算法，提出了一种生成人工智能系统中类似于人类决策数据的新算法，证明使用这种合成的数据可以成功解决具有逐步增加难度的计算机游戏中的决策任务，并且与人类表现几乎无差异。

Apr, 2023