重新思考数据增强对于强健的视觉问答的影响

ECCVJul, 2022

重新思考数据增强对于强健的视觉问答的影响

Rethinking Data Augmentation for Robust Visual Question Answering

Long Chen, Yuhang Zheng, Jun Xiao

TL;DR提出了一种基于知识蒸馏的数据增强方法 KDDAug，通过放宽合理图像 - 问题匹配的要求，并设计了一个知识蒸馏（KD）策略生成所有生成的图像 - 问题对的伪答案，从而增强图像的数据集，以提高视觉问答（VQA）模型的泛化性能。

Abstract

data augmentation (DA) -- generating extra training samples beyond original training set -- has been widely-used in today's unbiased vqa models to mitigate the language biases. Current mainstream DA strategies ar

data augmentation vqa knowledge distillation answer assignment generalization

发现论文，激发创造

有效课程学习中改进数据增强以提升鲁棒视觉问答

通过引入有效课程学习策略（ECL）来提高基于数据增强的视觉问答（VQA）方法，以缓解语言偏见，并通过生成额外的训练样本超出原始样本帮助消除偏见。与整个增强数据集的训练相比，我们的 ECL 策略可以通过使用更少的训练样本来进一步提高 VQA 模型的性能。

Jan, 2024

视觉问答的语义等效对抗数据增强

通过生成对抗样本，解决语义结构中图片翻转等处理困难的问题，提高了视觉问答 (Visual Question Answering) 模型的性能和抗对抗攻击的能力。

Jul, 2020

通识推理的生成式数据增广

该研究使用预先训练的语言模型和选择最有信息量和多样性的生成数据的方法，比基于后翻译的现有数据增强方法表现更好，并在低资源环境下获得了更准确和稳健的学习结果。

Apr, 2020

发掘未知的已知：将数据集中的隐式知识转化为视觉问答的显式训练样例

本文提出了一种基于数据增强的方法 SimpleAug，在不增加人工标注数量的情况下，将数据集中隐含的知识显式化，以此加强针对多模态信息的视觉问答模型，并在两个基准数据集上取得了不错的表现。

Sep, 2021

生物医学事实型问题回答的数据增强

本文研究七种数据扩增方法在事实型问题回答中的作用，着重于生物医学领域以及数据难以获得的情况。作者从 BioASQ 挑战赛中获取数据，然后通过人工智能技术和其他方法进行扩增。实验证明，即使在使用大型预训练模型时，数据扩增也会带来非常显著的性能提升，其中以基于 word2vec 的词汇替换为最佳方法。作者最终公开了其代码和人工训练数据集。

Apr, 2022

当明智选择时，更多的数据就是你需要的：一种通用的样本有效策略用于数据增强

本文提出了一种名为 Glitter 的通用数据增强技术，该技术可以自适应地选择最麻烦的样本并通过优化它们来提高样本效率，从而使深度神经网络在训练过程中不会牺牲性能。

Mar, 2022

知识混合增强模型：低资源 NLP 的全功能数据增强方案

该论文提出了一种名为 KnowDA 的 Seq2Seq 语言模型，该模型利用知识混合训练 (KoMT) 在多个异构 NLP 任务中预先训练并生成高质量的合成数据，用于解决低资源 NLP 任务中数据增强的问题。实验证明，KnowDA 成功地将任务知识转移给在 KoMT 中看到和没有看到过的 NLP 任务。

Jun, 2022

数据增强对知识蒸馏的影响

本研究发现知识蒸馏与微调在数据增强方面的偏好不同，鼓励学者探索针对知识蒸馏的数据增强方法，且合适的语义漂移度（例如，更改 30% 的令牌通常是知识蒸馏的最佳选项），并发现对于小型数据集，较大的语义漂移度更加适合，直至出现超出分布的问题。

May, 2023

对话人工智能的数据增强

对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题，并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。

Sep, 2023

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021