定向数据生成：寻找和修复模型弱点

ACLMay, 2023

定向数据生成：寻找和修复模型弱点

Targeted Data Generation: Finding and Fixing Model Weaknesses

Zexue He, Marco Tulio Ribeiro, Fereshte Khani

TL;DR为解决 NLP 模型在特定子群体上的不公平性和准确性问题，提出了一种名为 'Targeted Data Generation（TDG）' 的框架，它可以自动识别具有挑战性的子群体并使用大型语言模型（LLMs）来生成新数据，以提高模型的准确性。

Abstract

Even when aggregate accuracy is high, state-of-the-art nlp models often fail systematically on specific subgroups of data, resulting in unfair outcomes and eroding user trust. Additional data collection may not help in addressing these weaknesses, as such →

nlp models fairness targeted data generation challenging subgroups data augmentation

发现论文，激发创造

使用 Datamodels（D3M）进行数据去偏：通过数据选择提高子群体鲁棒性

使用 Data Debiasing with Datamodels (D3M) 方法，在不需要训练组注释或额外的超参数调整的情况下，通过隔离和移除导致模型在少数群体上失败的特定训练样本，可以高效地训练去偏置分类器。

Jun, 2024

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

针对偏差缓解的有针对性数据增强

通过注入偏见进行训练，我们提出了一种名为 Targeted Data Augmentation（TDA）的创新有效方法来应对数据和模型中的偏见问题，通过随机引入偏见在训练过程中，我们成功减少了偏见度量，并在误差率几乎不增加的情况下达到了很大程度的改善。

Aug, 2023

TarGEN：大型语言模型的有针对性数据生成

通过使用 TarGEN 多步提示策略来生成高质量的合成数据集，结合自校正方法增强语言模型生成过程中的准确性，从而创建复杂和多样的基准测试数据集。

Oct, 2023

目标图像数据增强提高基本技能字幕鲁棒性

通过填补世界相关性结构的缺失，利用文本到图像生成模型改进人类模型在性别识别等方面的能力，显示了一种目标图像编辑数据增强方法在性别、颜色和计数能力方面提高图像字幕度量的性能，并分析了图像字幕模型在视觉编码和文本解码方面的不同行为表现。

Sep, 2023

通过利用网络搜索和生成模型解决图像分类中的弱决策边界

机器学习（ML）技术已知存在伦理和运营问题，但我们正见证企业在敏感应用中部署它们的增长势头。我们提出了一种利用网络搜索和生成模型来缓解判别模型缺陷的方法。我们在 ImageNet 的 People Subtree 子集上展示了我们的方法，并展示其在某些代表弱势群体的类别中增强了鲁棒性和减轻了偏见（例如，有色人种女医生）。虽然在极大程度上提高了模型的整体性能，我们在模型的性别准确性差异方面实现了显著降低（77.30%）。除了这些改进，我们观察到分类器的决策边界得到了明显的增强，它具有较少的弱点和类别之间的更大差异。虽然在本研究中我们展示了针对弱势群体的方法，但该技术可以扩展到各种问题和领域。

Oct, 2023

神经数据转换为文本生成的创新

本文调查了神经元数据到文本生成的方法、基准数据集和评估协议，突出了技术应用阶段及其在自然语言生成领域中的前景。

Jul, 2022

DAGAM: 数据生成与修改的数据增强方法

本研究介绍了三种自然语言数据增强方法，包括基于生成模型的数据增强 (DAG)、使用文本修改技术的数据增强 (DAM) 以及结合 DAG 和 DAM 技术的数据增强 (DAGAM)，研究表明这些方法能够在六个文本分类基准数据集上提高模型性能，而与原始数据集相比，使用 BERT 微调技术的结果更好。

Apr, 2022

数据不足？深度学习来救援！

通过现有的自然语言处理技术和文本生成能力，我们提出了一种新的数据增强方法，即基于语言模型的数据增强 (LAMBADA)，它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据，进而提高文本分类任务性能。

Nov, 2019

基于角色的对话生成模型无关数据操作方法

为了构建智能对话代理，针对当前有限的基于人物特征的对话数据不足以很好地训练对话生成模型的问题，提出了一种数据处理方法，该方法适用于任何基于人物特征的对话生成模型以提高其性能，并通过实验表明了其优越性。

Apr, 2022