离线预训练加速探索和表示学习
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
Feb, 2021
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
本研究从实证的角度研究了离线强化学习的稳定性,尝试使用来自预训练神经网络的特征进行样本高效的离线强化学习,结果表明即使使用这种预训练表示,仍然存在显著的误差扩大,离线强化学习仅在极小的分布偏移范围内是稳定的。这些结果表明,成功的离线强化学习需要更强的条件,这些条件超出了成功监督学习所需的条件。
Mar, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文介绍了一个针对 offline-RL 问题的新的基准测试以及引入 ACRO 方法来解决视觉详细的外在信息的控制问题。研究发现当前的表征学习技术在实际应用中存在复杂和时变过程的噪声时很容易失败。ACRO 理论和实验证明,使用多步骤反向模型可以学习到代理控制器的表示并显著优于基线。
Oct, 2022
本论文旨在探究离线强化学习和语言建模之间的潜在关系,通过使用 Transformer 模型对不同的离线强化学习任务进行预训练,并在各种与语言相关的任务上进行评估,结果表明,与使用语言建模的模型相比,我们的 RL 预训练模型具有接近的性能,从而验证了这两种模态之间存在着共同的有用特征,进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。
Sep, 2022
利用未标记数据预先训练编码器,然后在少量任务特定数据上微调,通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面,该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能
Jun, 2021
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023