流量控制:无损原始发现的离线强化学习
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
该研究的目标是通过使用 Normalizing Flows 进行深度学习,利用先前记录的数据集来训练一个采取更保守行动的策略模型,以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估,并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。
Nov, 2022
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
提出一种用于离线强化学习中算法和超参数自动选择的元算法,通过使用多个数据拆分来产生更可靠的算法 - 超参数选择,并在医疗保健、教育和机器人技术等各种模拟领域中比较和选择最佳策略,并输出离线策略学习算法的更高性能的策略。
Oct, 2022
本论文提出一个在线学习和离线学习技术的归一化分类法,总结了离线 RL 领域的最新算法突破和现有基准的特性和不足,并提供了对未来研究方向的展望。
Mar, 2022
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法,该方法识别了离线数据集中的非稳定性,在训练策略时对其进行考虑,并在评估过程中进行预测。我们分析了我们提出的方法,并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能,并且比基线方法表现更好。
May, 2024