DIDA: 基于领域适应的去噪模仿学习

Apr, 2024

DIDA: 基于领域适应的去噪模仿学习

DIDA: Denoised Imitation Learning based on Domain Adaptation

Kaichen Huang, Hai-Hang Sun, Shenghua Wan, Minghao Shao, Shuai Feng...

TL;DR通过领域适应的去噪模仿学习，我们设计了两个鉴别器来区分数据的噪声水平和专业水平，从而使特征编码器能够学习与任务相关但领域无关的表示，实验证明我们的方法可以成功处理来自不同类型噪声的演示的有挑战性的模仿任务，优于大多数基线方法。

Abstract

Imitating skills from low-quality datasets, such as sub-optimal demonstrations and observations with distractors, is common in real-world applications. In this work, we focus on the problem of Learning from Noisy Demonstrations (LND), where the imitator is required to learn from data with noise that often occurs during the processes of →

learning from noisy demonstrations denoised imitation learning domain adaptation expertise level data collection

发现论文，激发创造

判别式对抗领域自适应

提出了一种基于判别式对抗领域适应 (DADA) 的新型对抗学习方法，其鼓励在输入实例的任何情况下，类别和域预测之间存在相互抑制关系，以解决现有方法中任务和域分类器相互独立导致的收敛问题，该方法能够在实际条件下定义一个最小极值博弈，促进联合分布对齐。除传统的闭集领域适应以外，还将 DADA 扩展到部分和开放集领域适应的极具挑战性的问题设置中，在基准数据集上实验表明了该方法的有效性并达到了三个场景下的最新成果。

Nov, 2019

类增量领域自适应

该研究提出了一种实用的域自适应范式 —— 增量类别域自适应（Class-Incremental Domain Adaptation，CIDA），并且根据理论和实证观察，提出了一种基于样板网络的有效方法，使得在域偏移的情况下可以对目标样本进行分类，并且可以对共享的和新的目标类进行分类，其性能优于 CIDA 范式中的 DA 和 CI 方法。

Aug, 2020

基于双层交互的领域自适应语义分割

本文提出了一个双层互动的域自适应 (DIDA) 方法来解决语义分割伪标签错误的问题，该方法基于无监督域自适应，同时使用实例层面和语义层面相似度实现更可靠的伪标签，实现了优于现有技术的效果。

Jul, 2023

领域自适应模仿学习

介绍了一种领域自适应模仿学习（DAIL）问题的形式化表达，提出了一种两步方法：对齐和适应，通过无监督的 MDP 对齐算法（GAMA）执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。

Sep, 2019

通过部分和失衡的领域适应，为非专业事实描述进行法律判断预测

本文研究了从不平衡的源领域到部分目标领域的法律领域适应性问题，该领域的任务是提高针对非专业事实描述的法律判断预测。我们将此任务描述为部分和不平衡的领域适应问题，并探索了在源域中大规模的非共享类相关数据，通过分级加权适应来解决这个限制。我们在深度学习模型中嵌入了一种新的部分不平衡领域适应技术（AIDA），它可以共同借用非共享类的兄弟知识来处理源领域中的共享类并进一步将共享类的知识从源领域转移到目标领域。实验结果表明，我们的模型优于现有的算法。

Feb, 2023

通过领域自适应模仿学习动态系统的代表性轨迹

本研究提出了 DATI，一个使用循环一致的生成对抗方法设计的迁移轨迹模仿的深度强化学习代理，在多个合成轨迹模式的实验中表现优于基线模型和最优控制，可以用于异常运动识别和空间不受限的轨迹数据挖掘。

Apr, 2023

无监督域适应中 DIRT-T 方法的应用

通过集群假设的视角，该研究提出了两个新的模型：结合领域对抗训练和对集群假设违反的惩罚的虚拟敌对领域自适应（VADA）模型以及采用自然梯度步骤进一步减小集群假设违反的 Decision-boundary 迭代细化训练与教师（DIRT-T）模型。广泛的实证结果表明，这两个模型的组合大大提高了数字，交通标志和 Wi-Fi 识别领域自适应基准的最新性能。

Feb, 2018

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

学习鉴别：偏好与表示学习中的模仿异质人类示范

本文介绍了一种离线模仿学习框架，Learning to Discern (L2D)，用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习，我们能够对不同风格的新演示进行评估和学习，从而提高各种任务的策略性能。

Oct, 2023

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023