政策导向的设计：离线策略优化的保守测试时间适应

Jun, 2023

政策导向的设计：离线策略优化的保守测试时间适应

Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang...

TL;DR本文提出了 DROP 方法，通过离线学习一个 MBO 分数模型在内部级别上进行优化，在外部级别上进行优化以获得奖励最大化并通过引入行为嵌入和保守规则限制，使得 DROP 具备了测试时间自适应能力。与传统离线 RL 方法相比，DROP 取得了显著的性能提升。

Abstract

In this work, we decouple the iterative bi-level offline rl from the offline training phase, forming a non-iterative bi-level paradigm and avoiding the iterative error propagation over two levels. Specifically, t

offline rl bi-level paradigm model-based optimization test-time adaptation reward maximization

发现论文，激发创造

离线强化学习策略应该被训练成具有自适应性

该研究提出离线 RL 方法应该适应不确定性，提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略，并且在离线 RL 基准测试中展示了其有效性。

Jul, 2022

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

在在线 RL 或微调中，使用乐观探索策略来探索新的状态和行为是可取的，我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架，通过在在线微调结束时进行离线训练来恢复更好的策略。

Oct, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

线下到线上强化学习的贝叶斯设计原则

离线强化学习（RL）在探索可能成本高昂或不安全的真实世界应用中至关重要。然而，离线学习的策略通常是次优的，需要进一步进行在线微调。本文解决了离线到在线微调的基本困境：如果智能体保持悲观态度，可能无法学到更好的策略，而如果直接变得乐观，性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略，而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降，同时保证找到最优策略。基于我们的理论发现，我们提出了一种优于现有方法的新算法，在各种基准测试中展示了我们方法的有效性。总体而言，所提出的方法为离线到在线 RL 提供了一种新的视角，有潜力使离线数据的学习更加有效。

May, 2024

提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调

该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。

Nov, 2022

离线至在线强化学习中的超领域规划

离线预训练与在线微调（offline-to-online 或 OtO）是与实际强化学习部署过程相匹配的范式，我们研究在线强化学习开拓问题的主要方法，其中 PTGOOD 算法在在线微调中显著提高了智能体回报，并且在少于 10k 的在线步骤中找到了最优策略。

Oct, 2023

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022