基于数据驱动的离线决策：不变表示学习

Nov, 2022

基于数据驱动的离线决策：不变表示学习

Data-Driven Offline Decision-Making via Invariant Representation Learning

Han Qi, Yi Su, Aviral Kumar, Sergey Levine

TL;DR通过域适应的角度，提出了对离线数据驱动的决策制定进行建模的方法，称为不变目标模型，用于解决分布偏移问题，并实现了学习性能和分布偏移之间的自然权衡。

Abstract

The goal in offline data-driven decision-making is synthesize decisions that optimize a black-box utility function, using a previously-collected static dataset, with no active interaction. These problems appear in many forms: offline reinforcement learning (RL), where we must produce a

offline data-driven decision-making domain adaptation invariant objective models distributional shift optimization

发现论文，激发创造

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

离线强化学习中有限数据处理的领域知识整合

通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Jun, 2024

超越 OOD 状态行为：支持跨域离线强化学习

本文提出了交叉领域离线强化学习方法 BOSA，通过利用来自不同转移动态（环境）的源领域数据，解决了离线 RL 中存在的数据效率不高的问题，并通过实验证明其在离线数据效率方面的有效性。

Jun, 2023

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

在潜在空间中通过领域不变表示学习改善入侵检测

通过多任务学习，我们引入了一种两阶段表示学习技术，旨在从跨越多个领域的特征中培养一个潜在空间，包括原始和跨领域的特征，以增强在未见过的内部分布和外部分布领域的推理能力。此外，我们试图通过最小化先验和潜在空间之间的互信息来解耦潜在空间，从而有效地消除虚假特征之间的关联性。总体而言，这种联合优化将促进领域无关的特征学习。我们使用标准分类指标在多个网络安全数据集上评估模型的有效性，并将结果与当代领域泛化方法进行对比。

Dec, 2023

跨领域离线强化学习中的数据过滤对比表示

本文提出了一种基于表征的方法来测量领域差距，并通过对不同领域进行过渡采样来学习表征，从而解决合并两个领域数据导致性能下降的问题。通过基于表征的方法筛选数据，我们的实证结果表明，我们的方法仅使用目标数据的 10％就能以 89.2％的性能达到 100％目标数据集与最先进方法的性能。

May, 2024

O3D：用于大型语言模型的离线数据驱动发现与蒸馏的顺序决策制定

我们提出了一种离线学习框架，利用大规模的离线数据（如人类互动日志）来改善大型语言模型的在上下文学习性能。我们通过文本和代码的方法形式化定义了基于大型语言模型的策略，并引入了一种离线数据驱动的发现和精炼框架（O3D），以改善大型语言模型的决策能力。在两个交互式决策基准测试中的实证结果表明，O3D 可以通过离线发现和精炼过程显著提升大型语言模型的决策能力，并在基于文本和代码的策略下持续优于基准模型。

Oct, 2023

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

黑盒优化的扩散模型

该论文介绍了一种新的离线黑盒优化的逆向方法 ——DDOM，基于扩散模型，它能够通过学习条件生成模型来进行优化，其在 Design-Bench 基准测试中的表现与最先进的基线相媲美。

Jun, 2023