流量控制：无损原始发现的离线强化学习

Dec, 2022

流量控制：无损原始发现的离线强化学习

Flow to Control: Offline Reinforcement Learning with Lossless Primitive Discovery

Yiqin Yang, Hao Hu, Wenzhe Li, Siyuan Li, Jun Yang...

TL;DR本研究提出了一种以基本技能表示为流的离线层次学习方法，重点在于保证基本技能的表达能力，从而恢复整个策略空间，实验结果表明，该方法在大多数任务中取得了优异的性能表现。

Abstract

offline reinforcement learning (RL) enables the agent to effectively learn from logged data, which significantly extends the applicability of RL algorithms in real-world scenarios where exploration can be expensive or unsafe. Previous works have shown that extracting →

offline reinforcement learning hierarchical learning primitive skills policy space flow-based structure

发现论文，激发创造

OPAL: 离线原始探索以加速离线强化学习

本论文研究了如何利用离线数据中的原始行为来优化强化学习模型，在一系列基准测试中取得了不错的成果并证明了其有效性。

Oct, 2020

离线无模型机器人强化学习工作流程

本文提出了一种实用的线下强化学习工作流程，类似于监督学习问题的工作流程，并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中，使用此工作流程在没有在线调整的情况下生成有效策略的有效性。

Sep, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

在归一化流的潜空间中训练保守智能体的离线强化学习流程

该研究的目标是通过使用 Normalizing Flows 进行深度学习，利用先前记录的数据集来训练一个采取更保守行动的策略模型，以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估，并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。

Nov, 2022

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

限数据的离线强化学习数据效率管道

提出一种用于离线强化学习中算法和超参数自动选择的元算法，通过使用多个数据拆分来产生更可靠的算法 - 超参数选择，并在医疗保健、教育和机器人技术等各种模拟领域中比较和选择最佳策略，并输出离线策略学习算法的更高性能的策略。

Oct, 2022

离线强化学习综述：分类、评估与开放性问题

本论文提出一个在线学习和离线学习技术的归一化分类法，总结了离线 RL 领域的最新算法突破和现有基准的特性和不足，并提供了对未来研究方向的展望。

Mar, 2022

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

离线强化学习中的结构化非稳定性数据集

当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

May, 2024