半监督信息检索的对抗采样和训练

WWWNov, 2018

半监督信息检索的对抗采样和训练

Adversarial Sampling and Training for Semi-Supervised Information Retrieval

Dae Hoon Park, Yi Chang

TL;DR本文提出一种针对 ad-hoc 检索模型的数据不平衡及神经网络模型易受对抗干扰等问题的对抗性采样和训练框架，通过增强点击示例和获得非常信息化的非点击示例来学习 ad-hoc 检索模型，并在常见 ad-hoc 检索任务（如网络搜索，项目推荐和问答）的基准数据集上进行实验，结果表明该方法在高排名文档方面显着优于强基线，并且在使用仅占 5％的已标记数据对 IRGAN 在 NDCG@5 上实现更好的表现。

Abstract

ad-hoc retrieval models with implicit feedback often have problems, e.g., the imbalanced classes in the data set. Too few clicked documents may hurt generalization ability of the models, whereas too many non-clic

ad-hoc retrieval implicit feedback adversarial training neural network-based models informational non-clicked examples

发现论文，激发创造

一种面向信息检索的对抗性模仿点击模型

本文提出了一种基于模仿学习的对抗学习点击模型框架（Adversarial Imitation Click Model, AICM），通过明确地学习恢复用户的内在效用和潜在意图的奖励函数，将用户与排名列表的交互建模为动态系统（而不是单步点击预测），通过对抗训练最小化 JS 发散来学习稳定的点击序列分布，从而将暴露偏差从 $O (T^2)$ 降到了 $O (T)$，结果表明 AICM 在传统点击度量和去暴露方面具有优异的性能。

Apr, 2021

从少到多学更多：加强弱监督以实现即时检索

本文介绍了两种减少训练数据需求的方法：一种是通过众包方法生成标签，并去除有害数据；另一种则是使用学习排序模型生成训练数据。这些方法使我们要比以前更少的训练数据即可超越无监督基准的表现。

Jul, 2019

半监督文本分类的对抗训练方法

本文介绍了在文本领域将反对训练和虚拟反对训练应用于使用递归神经网络中的单词嵌入，并在多个基准半监督和纯监督任务上实现了最先进结果。

May, 2016

猜测聪明：有偏采样用于高效黑盒对抗攻击

本文讨论了黑盒子设置下图像分类的对抗性样本问题，并针对 Boundary Attacks 提出了一种基于偏差抽样的新方法，该方法通过图像频率、区域掩码和代理梯度三种偏差来提高攻击效率，并在 ImageNet 数据集上进行了深入评估。最终表明，这些偏差的结合能够显著提高黑盒攻击的效率，并在对 Google Cloud Vision API、以及强防御模型的攻击中都表现出色。

Dec, 2018

对抗样本可作为无监督机器学习的有效数据增强

本研究提出一种生成无监督模型的对抗性示例的框架，使用相互信息神经估计器作为无监督信息理论相似度测量，建议使用此框架将对抗性样本作为简单的插入数据增强工具进行模型再训练，以大幅提高在不同无监督任务和数据集上的性能。

Mar, 2021

分布式对抗网络

提出基于样本而非单一样本点作为基础鉴别单位的对抗训练框架，并介绍了两种可操作和预测样本的分布式对手，通过实验结果表明，与传统的细节预测鉴别器训练模型相比，使用我们的分布式对手训练的生成器更加稳定且极少出现模式崩溃，将该框架应用于领域适应也取得了显着的提高。

Jun, 2017

运用专家指导的对抗性扩充来提高命名实体识别的泛化能力

使用专家引导的启发式方法构建了一个高质量的 CoNLL 2003 测试数据集，通过基于此集合的对抗性扰动来评估 NER 模型的泛化能力，并且通过使用混合数据训练技术来显著提高在挑战集上的性能以及提高了域外泛化能力。

Mar, 2022

评估大型语言模型的基于检索上下文学习的对抗鲁棒性

通过引入检索增强联系学习方法，利用检索器提取语义相关示例作为演示，提高模型对测试样本的攻击稳健性，并引入一种无需训练的对抗防御方法 DARD，通过丰富示例池来改进模型性能和稳健性。

May, 2024

多尺度匹配的社区问题回答选择对抗训练

本研究提出了一种针对社区问答的二分类（相关 / 不相关）策略，采用敌对训练框架缓解标签失衡问题，并使用生成模型迭代地抽样一组具有挑战性的负样本，最终提高模型预测性能。此外，我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之间的相关性。在 SemEval 2016 和 SemEval 2017 数据集上进行评估，结果表明该方法达到或接近最佳性能。

Apr, 2018

生成对抗性负面回复以提升响应排名与评估的鲁棒性

发展神经对话模型需要超越 “内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Jun, 2021