足够好的样本外推
提出了一种基于神经扩展范例(Ex2)的数据增强方法,通过从某个分布中抽样得到的一些范例向该分布中生成新范例,应用于语言理解任务中,取得了在几个少样本学习基准上显著的优化结果。
Feb, 2021
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
通过生成伪数据进行数据增强已被证明在语法错误修正(GEC)领域中缓解数据稀缺性的挑战中有效。本文引入了可解释且计算高效的两个度量:亲和性和多样性,研究发现高亲和性且适当多样性的优秀 GEC 数据增强策略可以更好地提高 GEC 模型的性能,并提出了一种名为 MixEdit 的数据增强方法,通过策略性和动态地增加真实数据而不需要额外的单语语料库。在英文和中文 GEC 数据集上的实验证实了我们发现的正确性和 MixEdit 的有效性,结果表明 MixEdit 显著提高 GEC 模型性能并且与传统数据增强方法互补。
Oct, 2023
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
该研究针对 GPT-3 模型训练数据不足的问题,通过自动生成的样本增强小型训练集,在数据科学相关问题分类任务中比较了两种分类器的效果,证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。
May, 2022
本文提出了一种基于数据增强的自训练样本选择框架,使用熵和模型预测作为选择器,结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。
Feb, 2023
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023
应对低资源信息提取的挑战仍然是一个持续存在的问题,由于有限训练示例中固有的信息稀缺性。现有的数据增强方法被认为是潜在的解决方案,但在弱增强(例如同义词增强)和剧烈增强(例如缺乏适当指导的条件生成)之间很难达到平衡。本文提出了一种新的范式,采用目标增强和反向验证,以生成增强的示例,增强了多样性、极性、准确性和连贯性。广泛的实验结果证明了所提范式的有效性。此外,还讨论了已确定的局限性,为未来改进提供了启示。
May, 2024
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
本文在一个由风险最小化玩家和出题人提供新测试分布的在线游戏框架下,研究亚群体间的泛化。通过对子组概率似然性重赋权重的基础上,证明外推比内插计算复杂度高得多,而它们的统计复杂度没有明显差异。此外,我们表明 ERM 和含有噪声的变种对于两种任务都是 provably minimax-optimal 的,这为领域泛化算法的形式分析提供了一个新的途径。
Feb, 2021