IndiText Boost: 低资源印度语言的文本增强
本研究针对低资源语言马拉地语在情感分析领域存在的不足,提出了四种数据增强技术,包括释义、回译、基于 BERT 的随机词标替换、基于 GPT 的文本生成,这些方法在跨域准确性方面显著提升了性能,并可扩展到其他低资源语言和一般的文本分类任务。
Oct, 2023
本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响,研究表明在针对英斯瓦西里(En-Sw)数据集进行神经机器翻译时,文本分类任务中常用的三种数据增强技术(同义词替换、随机插入和上下文数据增强)均可提高系统性能,尤其是上下文数据增强技术。
Jun, 2023
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本论文提出了一种在低资源机器翻译中进行数据增强的通用框架,该框架不仅使用目标端单语数据,还通过相关高资源语言进行桥接,通过在两个步骤中使用词典和修改无监督机器翻译框架,将高资源数据转换为低资源语言,实验证明该方法在极低的资源条件下,与受监督背景转换基线相比,可将翻译质量提高 1.5 到 8 个 BLEU 点。
Jun, 2019
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本文主要研究神经机器翻译在低资源条件下的表现,提出通过对目标语句子进行回译生成人工数据的方法,并以提取 Tigrinya 语言为案例,研究了多种回译方法,最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。
Mar, 2021
本研究旨在提出一种新的数据增强方法来改善自动语音识别模型,该方法生成合成文本和合成音频,使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率(WER)达到 8.73%的改善。
Apr, 2022
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本研究提出 BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG 均取得了最先进的性能,该方法是灵活的,可以改进现有的增强方法。
Oct, 2022
使用数据扩增方法来改善文本分类问题的机器学习性能,本文研究了几种数据扩增技术在巴西葡萄牙语语料库上的表现,并发现其中一些方法的表现有所改善,但也指出了语言偏见和非英语文本数据匮乏的进一步利用。
Apr, 2023