应用于法律环境中的数据增强的文本聚类
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
本文研究利用数据增强技术对社交媒体用户生成文本进行分类的效果,发现 Easy Data Augmentation,conditional BERT 和 Back Translation 等技术对于分类器性能的提高有潜力,这对于存在缺乏标记数据和倫理清晰的社会媒体平台上的自动生成的文本的心理健康分类是有意义的。
Dec, 2021
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
Dec, 2023
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
探究数据集大小、训练数据集和测试数据集的划分、人工标注标签准确性等对深度学习分类器性能的影响,指出类的语义同质性会影响分类的难度,并讨论数据集属性评估的建立方法以及数据集增强可以作为提高 AI&Law 各种任务分类性能的另一条途径。
Jan, 2022
我们提出了一种简单直接的技术,通过应用软标签来改善基于规则的文本数据增强方法在自然语言处理任务中的性能。通过在七个不同的分类任务上进行实验,我们在经验证明了我们的方法的有效性,并公开了源代码以便复现。
Feb, 2024
这项研究全面评估了多种数据集和自然语言处理(NLP)任务中的文本增强技术,以解决这些方法缺乏可靠的广义证据的问题。研究重点关注训练集增强方法及现实实例与增强实例引入的策略顺序对训练的影响,尤其是通过开发和评估 Modified Cyclical Curriculum Learning (MCCL) 进行增强数据集。结果表明特定的增强方法,尤其是与 MCCL 结合使用,显著优于传统的训练方法在 NLP 模型性能方面。这些结果强调了在各种 NLP 任务中在速度和质量改进之间优化的需要,以及增强方法的谨慎选择和顺序策略的重要性。该研究得出结论,增强方法的使用,特别是与 MCCL 结合使用,可以改善各种分类任务的结果,为 NLP 中的文本增强策略的未来进展奠定了基础。
Feb, 2024