离线强化学习与人类反馈的部署

Mar, 2023

Deploying Offline Reinforcement Learning with Human Feedback

Ziniu Li, Ke Xu, Liu Liu, Lanqing Li, Deheng Ye...

TL;DR提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Abstract

reinforcement learning (RL) has shown promise for decision-making tasks in real-world applications. One practical framework involves training parameterized policy models from an offline dataset and subsequently deploying them in an online environment. However, this approach can be risk

reinforcement learning offline training online deployment human supervision adaptive model selection

发现论文，激发创造

离线无模型机器人强化学习工作流程

本文提出了一种实用的线下强化学习工作流程，类似于监督学习问题的工作流程，并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中，使用此工作流程在没有在线调整的情况下生成有效策略的有效性。

Sep, 2021

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022

基于模型的离线优化的部署高效强化学习

本文提出了一个新概念 —— 部署效率，以衡量一个策略学习过程中使用的不同数据收集策略的数量，指出递归地使用现有的无模型离线强化学习算法不能实现实用的部署效率和样本效率，因此提出了一种名为 BREMEN 的新型基于模型的算法，在仅使用 10-20 倍于以前工作的数据的情况下，能够有效地离线优化策略，实现出色的部署效率和样本效率的学习，并使用仅 5-10 次部署即可在模拟的机器人环境中从头开始成功地学习策略，而标准强化学习基线的典型值是数百万次。

Jun, 2020

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

在现实世界的序列转换任务中，基于人类反馈的离线强化学习

文章提出了如何利用自然语言处理系统中收集的海量交互日志以优化线下强化学习的方法，同时讨论了 NLP 任务的性质和生产系统的限制所带来的挑战及其可能的解决方案。

Nov, 2020

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线强化学习综述：分类、评估与开放性问题

本论文提出一个在线学习和离线学习技术的归一化分类法，总结了离线 RL 领域的最新算法突破和现有基准的特性和不足，并提供了对未来研究方向的展望。

Mar, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023