价值引导数据过滤的跨域策略适应

May, 2023

价值引导数据过滤的跨域策略适应

Cross-Domain Policy Adaptation via Value-Guided Data Filtering

Kang Xu, Chenjia Bai, Xiaoteng Ma, Dong Wang, Bin Zhao...

TL;DR该研究提出了一种基于价值一致性的在线动态适应学习算法 —— 价值引导数据过滤算法（VGDF）。实验结果表明，与之前的方法相比，在不同领域的各种环境中，VGDF 算法在策略概括上表现更为优异。

Abstract

Generalizing policies across different domains with dynamics mismatch poses a significant challenge in reinforcement learning. For example, a robot learns the policy in a simulator, but when it is deployed in the

reinforcement learning online dynamics adaptation value-guided data filtering dynamics mismatch policy generalization

发现论文，激发创造

捕获表征不匹配的方式进行跨领域策略自适应

本研究主要关注在强化学习中存在动力学不匹配的问题，提出了一种基于解耦表示学习的方法，通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异，将表示差异作为奖励惩罚项，该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。

May, 2024

跨领域离线强化学习中的数据过滤对比表示

本文提出了一种基于表征的方法来测量领域差距，并通过对不同领域进行过渡采样来学习表征，从而解决合并两个领域数据导致性能下降的问题。通过基于表征的方法筛选数据，我们的实证结果表明，我们的方法仅使用目标数据的 10％就能以 89.2％的性能达到 100％目标数据集与最先进方法的性能。

May, 2024

基于策略动态价值函数的快速适应

介绍了一种新的 Policy-Dynamics Value Functions 方法用于快速适应不同于之前训练环境的动态环境，方法利用强化学习技术，通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练，能够在少量交互中，通过学习后的价值函数快速适应不同动态环境，实验表明本方法在 MuJoCo 环境下有较好的表现。

Jul, 2020

跨领域政策迁移的综合调查和实例研究

通过对现有跨域策略转移方法进行系统审查，我们对每个问题设置的总体见解和设计考虑进行了细致的分类，并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后，我们总结了当前范式能力之外的开放挑战，并讨论了该领域可能的未来发展方向。

Feb, 2024

策略学习在缺乏支持下的离散的 RL 中的应用

通过解决源模拟和目标环境之间的动力学差异问题，提出一种简单但有效的方法，通过偏向和扩展源支持以减轻支持缺陷，以适应大的动力学差异，从而在目标领域中制定出有效的策略。

Feb, 2024

离线动态强化学习：通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020

跨领域策略转移与效果循环一致性

我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法，通过对过渡效果进行对称优化结构的方案，将机器人策略从源领域无缝转移到目标领域，实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。

Mar, 2024

利用弱配对约束调整深度视觉运动表示

提出了一种新颖的领域适应方法，将在大型易于获得的源数据集 (例如，合成图像) 上学习的视觉表示适应到目标实际世界领域，不需要昂贵的手工数据注释。作者使用弱对齐图像，结合分布对齐的方式来解决实际和模拟环境差异的问题，并在机器人操作任务上对其进行了评估。

Nov, 2015

跨图动态迁移学习

该研究提出了一个动态传输学习框架 DyTrans，使用基于 transformer 的时间编码模块建模动态域的时间信息，设计了动态域统一模块跨源和目标域高效地学习域不变特征，并在多个实际数据集上展示了 DyTrans 在从动态源域到动态目标域的知识转移中的有效性。

May, 2023

通过领域自适应字典学习实现跨域视觉识别

本文提出了一种新的领域自适应字典学习框架用于跨领域视觉识别，该方法通过学习一组中间领域，形成一个平滑的路径来弥补源域和目标域之间的差距，并通过分离共享字典和特定字典来实现更紧凑和再现性字典的学习，通过领域自适应稀疏编码和字典更新步骤学习。实验结果表明，该方法在三个公共数据集上表现优于大多数最先进的方法。

Apr, 2018