textual data augmentation | BriefGPT

关键词textual data augmentation

搜索结果 - 6

PGA-SciRE: 利用数据增强增强科学关系抽取的 LLM
提出了一种名为 PGA 的基于文本数据增强的框架，利用语言模型（LLMs）通过改写原始训练集样本来增加伪样本的数量，以提高科学领域关系抽取模型的性能，并通过生成含有与标签相关信息的句子来指导 LLMs 生成更多的伪样本，实验证明 PGA 框
PDFa month ago
为文本数据增强赋能大型语言模型
提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，
PDF2 months ago
数据增强已死，数据增强万岁
在这篇论文中，我们挑战了传统数据增强方法的有效性，并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理（如 ChatGPT 或 LLama2）可以提高性能，从而总结出这种形式的数据增强仍然有效，即使传
PDF4 months ago
噪声自训练与数据扩增在冒犯与仇恨言论检测任务中的应用
在线社交媒体存在大量冒犯和仇恨言论，为了解决这个问题，需要自动检测这些言论，而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果，在两个冒犯和仇恨言论数据集上进行实验证明了自
PDFa year ago
文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究
本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技
PDFa year ago
EMNLP使用提示派生虚拟语义原型的对比学习，用于无监督语句嵌入
本文提出了一种新的对比学习方法，使用提示词构建每个实例的虚拟语义原型，并通过负面提示形式派生负面原型，通过原型对比损失，将锚定的句子嵌入与其对应的语义原型相近，并与负面原型及其他句子的原型相距较远。实验结果表明，与强基线模型相比，我们提出的
PDF2 years ago