使用离线强化学习进行自适应人机界面引导

Sep, 2023

使用离线强化学习进行自适应人机界面引导

Bootstrapping Adaptive Human-Machine Interfaces with Offline Reinforcement Learning

Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan, Sergey Levine

TL;DR通过离线预训练和在线微调的组合，利用强化学习算法解决噪声命令信号和稀疏奖励的挑战，并通过学习去噪用户命令信号和提供共享自主辅助的方式，使得自适应界面能够成功辅助用户完成任务。

Abstract

adaptive interfaces can help users perform sequential decision-making tasks like robotic teleoperation given noisy, high-dimensional command signals (e.g., from a brain-computer interface). Recent advances in hum

adaptive interfaces sequential decision-making tasks reinforcement learning noisy command signals shared autonomy assistance

发现论文，激发创造

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

优化 AI 辅助决策中的人本目标与离线强化学习

通过离线强化学习作为一般方法对人工智能决策进行建模，以优化以人为中心的目标，本研究指出人们与经过优化的策略进行交流时，在准确性方面取得了显著提高，并强调了在人工智能决策中考虑除决策准确性之外的人为目标的重要性。

Mar, 2024

基于模型的强化学习调整用户界面

通过采用基于模型的强化学习方法，进行保守化自适应策略的制定，避免用户面临更高的成本，并通过预测人机交互模型来评估其效果，比非自适应和基于频率的策略表现更好，这一方法在自适应菜单的案例中得到了实证和模拟结果的支持。

Mar, 2021

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022

在现实世界的序列转换任务中，基于人类反馈的离线强化学习

文章提出了如何利用自然语言处理系统中收集的海量交互日志以优化线下强化学习的方法，同时讨论了 NLP 任务的性质和生产系统的限制所带来的挑战及其可能的解决方案。

Nov, 2020