捕获表征不匹配的方式进行跨领域策略自适应

ICMLMay, 2024

捕获表征不匹配的方式进行跨领域策略自适应

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Jiafei Lyu, Chenjia Bai, Jingwen Yang, Zongqing Lu, Xiu Li

TL;DR本研究主要关注在强化学习中存在动力学不匹配的问题，提出了一种基于解耦表示学习的方法，通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异，将表示差异作为奖励惩罚项，该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。

Abstract

It is vital to learn effective policies that can be transferred to different domains with dynamics discrepancies in reinforcement learning (RL). In this paper, we consider dynamics adaptation settings where there

reinforcement learning dynamics adaptation representation learning reward penalty kinematic and morphology mismatch

发现论文，激发创造

价值引导数据过滤的跨域策略适应

该研究提出了一种基于价值一致性的在线动态适应学习算法 —— 价值引导数据过滤算法（VGDF）。实验结果表明，与之前的方法相比，在不同领域的各种环境中，VGDF 算法在策略概括上表现更为优异。

May, 2023

跨领域离线强化学习中的数据过滤对比表示

本文提出了一种基于表征的方法来测量领域差距，并通过对不同领域进行过渡采样来学习表征，从而解决合并两个领域数据导致性能下降的问题。通过基于表征的方法筛选数据，我们的实证结果表明，我们的方法仅使用目标数据的 10％就能以 89.2％的性能达到 100％目标数据集与最先进方法的性能。

May, 2024

策略学习在缺乏支持下的离散的 RL 中的应用

通过解决源模拟和目标环境之间的动力学差异问题，提出一种简单但有效的方法，通过偏向和扩展源支持以减轻支持缺陷，以适应大的动力学差异，从而在目标领域中制定出有效的策略。

Feb, 2024

离线动态强化学习：通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020

利用弱配对约束调整深度视觉运动表示

提出了一种新颖的领域适应方法，将在大型易于获得的源数据集 (例如，合成图像) 上学习的视觉表示适应到目标实际世界领域，不需要昂贵的手工数据注释。作者使用弱对齐图像，结合分布对齐的方式来解决实际和模拟环境差异的问题，并在机器人操作任务上对其进行了评估。

Nov, 2015

多样化匹配：一种面向领域适应的目标检测表示学习范式

该研究介绍了一种针对目标检测的新型无监督域适应方法，通过域多样性和多域不变表示学习两个阶段来缓解像素级适应不完美和特征级适应带来的源偏差歧视。该方法在各种数据集上 mAP 平均精度方面的表现优于现有技术达到了 3%~11% 的大幅度提升。

May, 2019

跨领域策略转移与效果循环一致性

我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法，通过对过渡效果进行对称优化结构的方案，将机器人策略从源领域无缝转移到目标领域，实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。

Mar, 2024

基于相似度的知识转移用于跨领域强化学习

通过开发半监督对齐损失来匹配不同空间的一组编码器 - 解码器，本研究研究了如何衡量跨领域强化学习任务之间的相似性，以选择能够提高学习代理性能的知识源。实验结果表明，在各种 Mujoco 控制任务中，我们的方法能够有效地选择和传递知识，而无需与专家策略相匹配、配对或收集数据的监督。

Dec, 2023

跨领域政策迁移的综合调查和实例研究

通过对现有跨域策略转移方法进行系统审查，我们对每个问题设置的总体见解和设计考虑进行了细致的分类，并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后，我们总结了当前范式能力之外的开放挑战，并讨论了该领域可能的未来发展方向。

Feb, 2024

跨域观测下的模仿学习

本篇研究针对专家行为与训练代理之间的差异，提出了一种基于无配对无对齐的轨迹，以及循环一致性限制的框架，来学习对应关系以解决领域差异的问题，并通过实验证明了该方法的有效性。

May, 2021