半离线强化学习用于优化文本生成

ICMLJun, 2023

半离线强化学习用于优化文本生成

Semi-Offline Reinforcement Learning for Optimized Text Generation

Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong...

TL;DR该研究提出了一种半离线强化学习范式，可在保证探索能力的同时平衡训练成本，同时提供了比较不同强化学习设置的理论基础，并在优化成本、渐近误差和过度拟合误差边界方面提出了最优的强化学习设置。

Abstract

In reinforcement learning (RL), there are two major settings for interacting with the environment: online and offline. Online methods explore the environment at significant time cost, and offline methods efficiently obtain reward signals by sacrificing exploration capability. We propos

reinforcement learning semi-offline optimization cost asymptotic error overfitting error

发现论文，激发创造

利用离线数据进行在线强化学习

本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL 和脱机 RL 之间的区别。

Nov, 2022

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

无关奖励微调：混合强化学习具有可证明统计优势

本文研究了在混合设置中对表格强化学习算法的探讨，通过利用已有的离线数据集以及未知环境中的在线交互，提出了一种高效的三阶段算法，不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。

May, 2023

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。

Jun, 2024

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

基于集成的离线到在线强化学习：从悲观学习到乐观探索

提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Jun, 2023