- 基于大型语言模型的文本增强增强人格检测模型
利用语言模型生成文本增强,结合对比学习提取心理语言学信息,以提高人格特征识别性能。
- 大模型时代的数据增强调查
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
- IndiText Boost: 低资源印度语言的文本增强
本研究主要关注文本增强在印度语言上的应用,使用了多种数据增强技术如 Easy Data Augmentation、Back Translation、Paraphrasing、LLMs 文本生成和 LLMs 文本扩展,并进行了二分类和多分类文 - 从远到近,再不失真:使用 ChatGPT 进行文本扩充以实现高效情感分析
在人工智能时代,数据虽然珍贵,但标注成本却很高。本文利用 ChatGPT 在情感分析中进行文本增强,展示了一种突破性的解决方案。我们利用 ChatGPT 的生成能力创造了合成训练数据,显著提高了较小模型的性能,使其能够与甚至胜过更大的对手。 - 通过附加训练将特定科学知识教授给大型语言模型
通过额外的训练,我们探索将专门的科学知识嵌入到 Llama 2 Large Language Model(LLM)中。研究结果表明,有效的知识整合需要从多个角度阅读文本,尤其是在指导性格式下。我们利用文本增强来解决专业文本稀缺的问题,包括风 - CLAP:对预先训练的视觉语言模型鲁棒性的增强提示对比学习
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
- AAAI低资源语言的分布式数据增强方法
通过提出易分布数据增强(EDDA)和类型特定的相似词替换(TSSR)两种扩展方法,利用语义词上下文信息和词性标签进行词替换和增强,我们展示了这些方法在低资源语言的两个代表数据集上通过 F1 分数度量的实用性,证明了增强数据可以在低资源环境中 - 概率语言知识与单词级别文本增强
本文研究了基于标记级别的文本增强及概率语言知识在基于语言学评估的情境下的作用。在中英文的问题匹配分类任务中,对五种标记级别的文本增强技术进行了全面细致的实验,发现它们的效果普遍较差且概率语言知识的作用极小。
- Shuffle & Divide: 长文本对比学习
本文提出了一种基于对比学习的长文本文档自监督学习方法,其中关键是 Shuffle and Divide(SaD),一种简单的文本增强算法,用于对 BERT 文档嵌入进行对比更新所需的预文本任务。通过对 20 Newsgroups、Reute - STA: 自控文本增强提高文本分类
介绍了一种自我控制的文本增强方法(Self-Controlled Text Augmentation - STA),该方法可以控制样本的语义内容,对比现有技术在多个数据集上实验表明 STA 的性能显著优于现有技术,并且生成的样本词汇多样性高 - 强化器还是滤镜?重新思考预训练语言模型在文本分类增强中的作用
本研究提出 BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG 均取得了最先进的性 - 基于实体感知语法树的数据增强方法用于自然语言理解
本文提出了一种新的自然语言处理数据增强技术,称为 “实体感知数据增强(EADA)”,它通过应用实体感知语法树(EAST)来生成大量的训练实例,从而用于意图检测和槽填充,实验证明该技术在精度和泛化能力方面均优于现有的数据增强方法。
- BAN-Cap: 一种多用途的英孟加拉图像描述数据集
本文介绍 BAN-Cap 数据集,通过对该数据集进行基准测试,结合文本增强方法和自适应注意力模型,展示了我们的模型在孟加拉语图片字幕生成任务中的卓越性能及多功能性,包括机器翻译。
- CVPR通过多模态调节进行视频综合的展示和说明
使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。
- ACL基于 LM 的文本增强的神经数据到文本生成
通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。
- 通过全局增强方法提高短文本分类效果
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行