机器与人类交替学习

Feb, 2020

Learning to Switch Between Machines and Humans

Vahid Balazadeh Meresht, Abir De, Adish Singla, Manuel Gomez-Rodriguez

TL;DR本文提出一种具有自适应性的算法，使得现有的强化学习代理可以在机器和人类代理之间进行控制转换，在类似环境中可以找到多个转换策略序列，并演示了该算法在半自动驾驶场景中具有优越性。

Abstract

reinforcement learning agents have been mostly developed and evaluated under the assumption that they will operate in a fully autonomous manner -- they will take all actions. In this work, our goal is to develop algorithms that, by learning to switch control between machine and human a

reinforcement learning agents machine and human agent control 2-layer markov decision process online learning algorithm shared confidence bounds

发现论文，激发创造

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023

最小化人力成本的演示学习框架

本文探讨了机器人学习中的共享自治问题，提出了一种基于多臂赌博机算法的控制器选择方法，并通过模拟和实现任务验证了该方法降低了人类成本。

Jun, 2023

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

自主训练自动驾驶车辆的自主算法

基于强化学习的自主车辆训练算法，最小化人为干预，通过学习进展实时调整训练过程，安全地重置车辆状态，取得更好的驾驶性能和较少的人工重置。

May, 2024

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

基于深度强化学习的实际驾驶环境离散控制

本篇研究提出了一个基于真实驾驶环境的 MDP 框架，使用多智能体学习算法来实现对自动驾驶车辆的训练，并提出了可靠的初始化、数据增强和训练技术来实现最小化的视频数据和培训，最终在 TORCS 虚拟驾驶环境中得到了验证。

Nov, 2022

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

从自整定调节器到强化学习再回归

本文介绍了机器学习和强化学习在控制和规划自主系统行为方面的应用，同时强调在安全关键的环境下要特别注意算法的可靠性和安全性，为控制理论家们提供一个学习该领域的起点。

Jun, 2019

优化协作人工智能混合团队中的委托

人类和自主系统作为混合团队操作时，通过引入 AI 经理（通过强化学习学习团队的行为模型），在最大程度提高团队的综合性能的同时，最大限度减少 AI 经理介入的频率。

Feb, 2024