对抗领域自适应在重复问题检测中的应用

EMNLPSep, 2018

对抗领域自适应在重复问题检测中的应用

Adversarial Domain Adaptation for Duplicate Question Detection

Darsh J Shah, Tao Lei, Alessandro Moschitti, Salvatore Romeo, Preslav Nakov

TL;DR我们使用对抗域适应来检测网络论坛中的重复问题，实验结果表明平均改进了 5.6％，并且指出了该方法有效的条件以及相应的领域特征。

Abstract

We address the problem of detecting duplicate questions in forums, which is an important step towards automating the process of answering new questions. As finding and annotating such potential duplicates manually is very tedious and costly, automatic methods based on →

duplicate questions automating process machine learning adversarial domain adaptation stackexchange data

发现论文，激发创造

无标签训练数据的神经重复问题检测

本研究提出了两种方法：自动生成重复问题和使用问题标题和正文进行弱监督，研究表明这两种方法可以有效地训练社区问答中的问题检测模型，尤其是可以利用来自 cQA 论坛的大量未标记数据。同时，我们还发现使用标题和正文信息进行弱监督的方法是训练 cQA 答案选择模型的有效方法。

Nov, 2019

领域无关的对抗训练问答

本文提出一种采用对抗训练框架来解决深度学习中新领域适应问题的方法，将传统 QA 模型和判别器组合，以对抗的方式进行训练，从而实现 QA 模型学习到领域不变特征，并在 MRQA Shared Task 2019 中取得了优于基线模型的性能。

Oct, 2019

开放领域问答中领域自适应挑战与干预：调整或注释？

研究开放领域问答（ODQA）中，当应用于广泛不同的领域时，此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境，并研究了端到端的模型性能。他们发现，不仅模型在推广方面表现出失败，且高检索分数通常也不能提供准确的答案预测。最后，研究提出并评估了多种干预方法，其提高了端到端答案 F1 得分，最多可达 24 个点。

Dec, 2022

视觉问答的跨数据集自适应

本研究提出了一种新颖的域自适应算法，通过转换目标数据集的特征，减少统计分布上的差异，以训练源数据集的视觉问答模型，最大化对目标数据集上的问题正确回答的可能性。通过在几个热门的视觉问答数据集之间进行适应性调整的实证研究，发现所提出的方法优于没有适应和其他方法，并定量和 qualitatively 分析了适应性何时最为有效。

Jun, 2018

基于问题分类的问答领域自适应

我们提出了一个新的框架 QC4QA，利用自我监督的方法通过伪标签实现问题分类，最大化平均差异来减少源域和目标域之间的交叉差异，以及在同一问题类别的 QA 样本中最小化内部类别差异，该方法在多个数据集上比基准方法有了明显的改进。

Sep, 2022

机器阅读理解的对抗性域自适应

本研究提出了一种针对无监督域自适应机器阅读理解的方法，其中源域有大量标记数据，而目标域只有未标记数据。该方法使用敌对领域自适应框架（AdaMRC），生成虚拟问题并结合领域分类器进行压缩编码，经过对抗学习实现域不变表示学习，具有普适性、可以与预训练的大规模语言模型相结合，并可扩展到半监督学习。

Aug, 2019

通过对抗域适应缓解语音识别误差对口语问答的影响

该研究提出利用对抗模型来适应 ASR 错误，减少其对口语问答系统的影响，实验证明其效果优于之前的最佳模型。

Apr, 2019

基于有限文本语料库的对比领域自适应对话回答

本研究提出了一种名为对比领域自适应问答（CAQA）的新型领域适应框架，该框架结合了问题生成和域不变学习技术，用于在文本语料库受限的情况下回答域外问题，并且相较于现有技术取得了显著的效果改善。

Aug, 2021

挖掘 Stack Overflow 的重复问题

本研究提出两个基于神经网络的架构来解决 Stack Overflow 中存在的问题复制，同时还通过显式建模问题中存在的代码进一步提高了检测质量。

Oct, 2022

多重对抗领域适应

本文提出一种多重对抗领域自适应方法 (MADA)，能够捕获多模态结构，利用多个领域判别器实现不同数据分布的精细对齐，利用随机梯度下降计算梯度，证据表明该模型在标准领域自适应数据集上优于现有最先进方法。

Sep, 2018