定向数据生成:寻找和修复模型弱点
使用 Data Debiasing with Datamodels (D3M) 方法,在不需要训练组注释或额外的超参数调整的情况下,通过隔离和移除导致模型在少数群体上失败的特定训练样本,可以高效地训练去偏置分类器。
Jun, 2024
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
通过注入偏见进行训练,我们提出了一种名为 Targeted Data Augmentation(TDA)的创新有效方法来应对数据和模型中的偏见问题,通过随机引入偏见在训练过程中,我们成功减少了偏见度量,并在误差率几乎不增加的情况下达到了很大程度的改善。
Aug, 2023
通过使用 TarGEN 多步提示策略来生成高质量的合成数据集,结合自校正方法增强语言模型生成过程中的准确性,从而创建复杂和多样的基准测试数据集。
Oct, 2023
通过填补世界相关性结构的缺失,利用文本到图像生成模型改进人类模型在性别识别等方面的能力,显示了一种目标图像编辑数据增强方法在性别、颜色和计数能力方面提高图像字幕度量的性能,并分析了图像字幕模型在视觉编码和文本解码方面的不同行为表现。
Sep, 2023
机器学习(ML)技术已知存在伦理和运营问题,但我们正见证企业在敏感应用中部署它们的增长势头。我们提出了一种利用网络搜索和生成模型来缓解判别模型缺陷的方法。我们在 ImageNet 的 People Subtree 子集上展示了我们的方法,并展示其在某些代表弱势群体的类别中增强了鲁棒性和减轻了偏见(例如,有色人种女医生)。虽然在极大程度上提高了模型的整体性能,我们在模型的性别准确性差异方面实现了显著降低(77.30%)。除了这些改进,我们观察到分类器的决策边界得到了明显的增强,它具有较少的弱点和类别之间的更大差异。虽然在本研究中我们展示了针对弱势群体的方法,但该技术可以扩展到各种问题和领域。
Oct, 2023
本研究介绍了三种自然语言数据增强方法,包括基于生成模型的数据增强 (DAG)、使用文本修改技术的数据增强 (DAM) 以及结合 DAG 和 DAM 技术的数据增强 (DAGAM),研究表明这些方法能够在六个文本分类基准数据集上提高模型性能,而与原始数据集相比,使用 BERT 微调技术的结果更好。
Apr, 2022
通过现有的自然语言处理技术和文本生成能力,我们提出了一种新的数据增强方法,即基于语言模型的数据增强 (LAMBADA),它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据,进而提高文本分类任务性能。
Nov, 2019
为了构建智能对话代理,针对当前有限的基于人物特征的对话数据不足以很好地训练对话生成模型的问题,提出了一种数据处理方法,该方法适用于任何基于人物特征的对话生成模型以提高其性能,并通过实验表明了其优越性。
Apr, 2022