离线策略学习的数据集聚类

Feb, 2024

Dataset Clustering for Improved Offline Policy Learning

Qiang Wang, Yixin Deng, Francisco Roldan Sanchez, Keru Wang, Kevin McGuinness...

TL;DR该论文研究了一种被称为多行为的数据集特性，提出了一种行为感知的深度聚类方法，将多行为数据集分割成几个单行为子集，从而在线下决策学习中取得了改进的策略学习示例。

Abstract

offline policy learning aims to discover decision-making policies from previously-collected datasets without additional online interactions with the environment. As the training dataset is fixed, its quality becomes a crucial determining factor in the performance of the learned policy.

offline policy learning dataset characteristic multi-behavior behavior-aware deep clustering policy learning examples

发现论文，激发创造

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

利用多源数据进行离线强化学习的行为估计

该研究提出了一种基于潜变量模型对离线强化学习中多源数据的行为估计进行精细化建模的方法，以解决现有方法在忽略数据异质性时容易出现行为估计错误的问题，并且在现有离线 RL 算法上的实验表明该方法的有效性。

Nov, 2022

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

Few-Shot Imitation Learning 通过查询未标记的数据集进行行为检索

本研究通过利用少量下游专家数据有针对性地获取有关未标记数据集的信息，设计了一种新颖的机器人学习方法以有效地学习视觉运动技能。该方法效果显著，在通过视频实景测试和实际机器人操作中超越了以往更为复杂的目标设定方法 20% 的表现

Apr, 2023

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

离线强化学习策略应该被训练成具有自适应性

该研究提出离线 RL 方法应该适应不确定性，提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略，并且在离线 RL 基准测试中展示了其有效性。

Jul, 2022

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023