本研究主要关注在强化学习中存在动力学不匹配的问题,提出了一种基于解耦表示学习的方法,通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异,将表示差异作为奖励惩罚项,该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。
May, 2024
本文提出了一种基于表征的方法来测量领域差距,并通过对不同领域进行过渡采样来学习表征,从而解决合并两个领域数据导致性能下降的问题。通过基于表征的方法筛选数据,我们的实证结果表明,我们的方法仅使用目标数据的 10%就能以 89.2%的性能达到 100%目标数据集与最先进方法的性能。
介绍了一种新的 Policy-Dynamics Value Functions 方法用于快速适应不同于之前训练环境的动态环境,方法利用强化学习技术,通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练,能够在少量交互中,通过学习后的价值函数快速适应不同动态环境,实验表明本方法在 MuJoCo 环境下有较好的表现。
Jul, 2020
通过对现有跨域策略转移方法进行系统审查,我们对每个问题设置的总体见解和设计考虑进行了细致的分类,并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后,我们总结了当前范式能力之外的开放挑战,并讨论了该领域可能的未来发展方向。
Feb, 2024
通过解决源模拟和目标环境之间的动力学差异问题,提出一种简单但有效的方法,通过偏向和扩展源支持以减轻支持缺陷,以适应大的动力学差异,从而在目标领域中制定出有效的策略。
我们提出了一种简单、实用和直观的强化学习领域自适应方法,通过修改奖励函数,使用辅助分类器来区分源域和目标域,对源域中不可能出现的状态进行惩罚,适用于连续状态和动作的域,可扩展至高维任务。
Jun, 2020
我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法,通过对过渡效果进行对称优化结构的方案,将机器人策略从源领域无缝转移到目标领域,实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。
Mar, 2024
提出了一种新颖的领域适应方法,将在大型易于获得的源数据集 (例如,合成图像) 上学习的视觉表示适应到目标实际世界领域,不需要昂贵的手工数据注释。作者使用弱对齐图像,结合分布对齐的方式来解决实际和模拟环境差异的问题,并在机器人操作任务上对其进行了评估。
Nov, 2015
该研究提出了一个动态传输学习框架 DyTrans,使用基于 transformer 的时间编码模块建模动态域的时间信息,设计了动态域统一模块跨源和目标域高效地学习域不变特征,并在多个实际数据集上展示了 DyTrans 在从动态源域到动态目标域的知识转移中的有效性。
May, 2023
本文提出了一种新的领域自适应字典学习框架用于跨领域视觉识别,该方法通过学习一组中间领域,形成一个平滑的路径来弥补源域和目标域之间的差距,并通过分离共享字典和特定字典来实现更紧凑和再现性字典的学习,通过领域自适应稀疏编码和字典更新步骤学习。实验结果表明,该方法在三个公共数据集上表现优于大多数最先进的方法。
Apr, 2018