奖励一致性动力模型在离线强化学习中具有强大的泛化能力

Oct, 2023

奖励一致性动力模型在离线强化学习中具有强大的泛化能力

Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning

Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu

TL;DR学习精确的动力学模型对于脱机强化学习非常重要，我们提出了奖励一致性动力学模型的概念，通过生成具有最高动力学奖励值的批次转换来改善脱机模型建立强化学习方法的性能。

Abstract

Learning a precise dynamics model can be crucial for offline reinforcement learning, which, unfortunately, has been found to be quite challenging. Dynamics models that are learned by fitting historical transitions often struggle to generalize to unseen transitions. In this study, we id

offline reinforcement learning dynamics model reward-consistent dynamics models model-based offline reinforcement learning generalization ability

发现论文，激发创造

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

一种丰富且高效的强化学习策略类别：一致性模型

我们提出了一种用于离线、离线到在线和在线三种典型强化学习设置的高效且表达力强的策略表示方法，称为一致性策略，以一种演员 - 评论家风格的算法应用连续模型，展现了其在多模态数据、计算效率和性能方面的优势。

Sep, 2023

自适应离线到在线强化学习的剩余学习和上下文编码

离线强化学习通过离线数据集学习顺序行为，但实际应用中离线和在线阶段的转换动力学常常变化，所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法，在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换的表示，实验证明该方法适应这种动态变化，并可以以高样本利用率的方式推广到未见过的扰动。

Jun, 2024

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

强化学习动态泛化中的轨迹多项选择学习

本文介绍一种新的基于模型的强化学习算法，名为 trajectory-wise multiple choice learning，该算法通过学习多头动力学模型来实现动力学泛化，具有优异的零样本泛化性能。

Oct, 2020

离线强化学习中的结构化非稳定性数据集

当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

May, 2024