领域对抗性强化学习

Feb, 2021

Domain Adversarial Reinforcement Learning

Bonnie Li, Vincent François-Lavet, Thang Doan, Joelle Pineau

TL;DR该研究解决强化学习中的泛化问题，通过领域对抗优化过程实现学习表征的视觉不变性，取得显著的泛化改进效果。

Abstract

We consider the problem of generalization in reinforcement learning where visual aspects of the observations might differ, e.g. when there are different backgrounds or change in contrast, brightness, etc. We assu

reinforcement learning generalization mdp distribution zero-shot rl domain adversarial optimization

发现论文，激发创造

强化学习的鲁棒视觉域随机化

通过提出一种正则化方法，使得智能体在训练时只基于一个环境的变体进行训练，并在训练过程中对其学习到的状态表示进行正则化，以实现对不同领域的不变性，该方法比标准的域随机化技术更有效和鲁棒，并能实现相同的泛化分数。

Oct, 2019

神经网络的领域对抗性训练

本文提出了一种新的领域适应的表示学习方法，使用神经网络架构从源域的有标签数据和目标域的无标签数据中推断出训练的特征，该方法增加了标准层和一个新的反向梯度层，可以在文本情感分析、图像分类以及人员重新识别等任务中有效实现领域适应。

May, 2015

DARLA: 在强化学习中改进零样本迁移

该论文讨论利用多级深度强化学习代理 DARLA，通过学习离散化的环境表示，使策略更具鲁棒性实现领域自适应，该方法在不同的 RL 环境（Jaco arm, DeepMind Lab）和基本 RL 算法（DQN, A3C, and EC）中显示出比传统基线方法更好的性能表现。

Jul, 2017

领域对抗神经网络

本研究提出了一种针对领域自适应问题的新型表示学习算法，其中训练和测试数据来自类似但不同的分布，实验结果表明，我们的神经网络算法对领域适应具有更好的性能表现，而不管是标准神经网络还是支持向量机，即使是使用 Chen 等人提出的最先进的边缘化堆栈去噪自编码器的输入特征提取。

Dec, 2014

面向领域的对抗性训练：博弈视角

本文从博弈论的角度解释了域自适应训练中学习不变表示的支配性思路，并将梯度下降的优化器替换成高阶 ODE 求解器，为此得出渐近收敛保证。实验结果表明，与标准优化器相比，使用我们的优化器能够在半数训练迭代次数内，与最先进的域自适应方法相结合实现 3.5％的性能提升。

Feb, 2022

通过对抗数据增强方法泛化到未见领域

该篇研究论文提出了一个基于循环迭代的数据增强方法，使用虚构的目标领域中存在 “困难” 样本的数据来训练学习模型，以在先前未知的目标领域上实现更好的一般化表现。该方法利用对抗性示例以及数据依赖正则化来提高模型性能。

May, 2018

通过分布匹配进行到未见过的领域的泛化

本文探讨监督学习中数据导致的实际问题，着重于领域泛化研究，提出最小化给定领域对之间差异的方法，并在 EEG 数据集中验证了该策略。

Nov, 2019

基于不变式学习的对抗训练域不变表示的表示方法

本文研究使用先前为学习 “公平表示” 而开发的审查技术来解决域泛化问题。我们研究了 $k$ 个域的对抗性损失函数及其渐近行为，并在此基础上获得了算法在以前未见过的域上良好最坏情况预测性能的充分条件。我们提供了完整的不变性特征描述，并为敌对不变域泛化提供了第一个形式化保证。

Jun, 2020

利用对抗学习进行神经排序模型的跨域正则化

通过使用对抗生成网络作为跨领域正则化器，研究利用其在排名任务的效果来消除神经表示学习模型在训练过程中学习到的领域特定表示形式，从而在领域之间更好地泛化。

May, 2018

域内有什么？使用对抗训练学习域鲁棒文本表示

本文提出了一种基于结构化神经模型与领域特定和领域通用组件的联合学习以及领域对抗训练的方法，以优化域内和域外准确性，本方法在多领域语言识别和情感分析领域中的表现都优于标准领域适应技术和领域对抗培训。

May, 2018