锻造伪造者：通过数据增强改进作者验证的尝试

Mar, 2024

锻造伪造者：通过数据增强改进作者验证的尝试

Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation

Silvia Corbara, Alejandro Moreo

TL;DR在作者验证的敌对设置中，通过与负面合成样本增强分类器训练集，以模仿感兴趣作者的风格，无论是通过隐藏写作风格还是模仿其他作者的风格，本文以三种不同的生成器架构（基于循环神经网络的一种，基于小规模转换器的一种，以及基于流行的 GPT 模型的一种）和两种训练策略（一种受标准语言模型启发，另一种受 Wasserstein 生成对抗网络启发）来分析这种增强方法在作者验证任务中对分类器预测的改进效果。然而，实验结果显示，尽管该方法在许多敌对设置下有效，但其效果在实际应用中过于不稳定。

Abstract

authorship verification (AV) is a text classification task concerned with inferring whether a candidate text has been written by one specific author or by someone else. It has been shown that many AV systems are vulnerable to →

authorship verification adversarial attacks synthetic examples augmentation classifier training set

发现论文，激发创造

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

AdvAug: 神经机器翻译的鲁棒对抗性增强

本文提出了一种新的神经机器翻译对抗性数据增强方法，称之为 AdvAug，使用虚拟句子的嵌入来训练 NMT 模型，通过实验证明其取得了显著的效果提升。

Jun, 2020

对抗数据增强用于鲁棒的说话人验证

本文提出了一种名为对抗数据增强（A-DA）的新方法，将数据增强与对抗学习相结合，通过额外的分类器对不同类型的增强进行分类，使得网络能够生成能够欺骗分类器的说话者嵌入，从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法，展示了其对于声学变化的卓越鲁棒性和泛化能力。

Feb, 2024

关于作者归属与作者验证方面现有技术的状况

该研究论文介绍了谁是这篇文章作者（AA）和作者验证（AV）这两种方法，针对 AA/AV 数据集和评估指标的标准化与基准评估并评估了八种方法，其中传统的 Ngram-based 模型在 5 个 AA 任务中表现最佳，而 BERT-based 模型则在另外两个任务和 AV 任务中表现更好。通过使用 hard-negative mining，AV 方法可以作为 AA 方法的有竞争力的替代品。

Sep, 2022

朝向准确性 - 公正性困境：基于对抗样本的数据增强用于视觉去偏差

研究机器学习中的公平性问题和图像分类任务中的去偏见问题，通过使用对抗性样本进行训练数据增强来实现模型的准确性和公平性。

Jul, 2020

增强社交网络广告预测的数据增强比较研究

通过生成模型的数据增强方法，本研究在社交网络广告领域解决了受限数据集及潜在偏差的问题，提升了模型性能，并提供了多个数据增强技术的相对表现对比，以指导从业者选择适合的技术来增强模型性能。

Apr, 2024

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

由谁写下并出于何种原因？促使大型语言模型进行作者验证

本研究提出了 PromptAV，这是一种基于大型语言模型（LLMs）和逐步文体解释提示的新技术，用于作者验证（AV）任务，通过提供逐步解释提示的方式来解决现有 AV 技术在数据需求和可解释性方面的限制。PromptAV 在有限的训练数据下表现优于现有技术，并且通过直观的解释提高了可解释性，展示了其作为一种有效可解释的 AV 任务解决方案的潜力。

Oct, 2023

生成对抗网络在人员再识别系统中的数据增强综述

本文综述了如何使用生成对抗网络改善通过数据增广提高人员再识别模型性能的最新方法，主要聚焦于样式转移、姿态转移和随机生成三类数据增广方法。

Feb, 2023

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023