使用大型语言模型的基于文本的人员检索的数据增强

May, 2024

使用大型语言模型的基于文本的人员检索的数据增强

Data Augmentation for Text-based Person Retrieval Using Large Language Models

Zheng Li, Lijia Si, Caili Guo, Yang Yang, Qiushi Cao

TL;DR该论文提出了基于大型语言模型的数据增强方法（LLM-DA）以提升文本检索模型在人物图像检索中的性能。LLM-DA 使用大型语言模型重写当前的文本数据集，通过增加词汇和句子结构的多样性来扩展数据集，同时保持原始关键概念和语义信息。为了抑制大型语言模型的幻觉，LLM-DA 引入了文本忠实度过滤器（TFF）来筛除不忠实的重写文本。为了平衡原始文本和扩增文本的贡献，提出了一种平衡采样策略（BSS）。实验结果表明，LLM-DA 能够提升当前文本检索模型在人物图像检索任务上的性能。

Abstract

text-based person retrieval (TPR) aims to retrieve person images that match the description given a text query. The performance improvement of the TPR model relies on high-quality data for supervised training. However, it is difficult to construct a large-scale, high-quality TPR datase

text-based person retrieval llm-based data augmentation large language models text faithfulness filter balanced sampling strategy

发现论文，激发创造

重新思考文本数据增强的有效性：一个实证分析

本文研究评估了三种不同的微调方法在七种不同的自然语言处理任务中的效果，结果表明数据增强可以有效提高微调后的模型性能，特别是在少样本学习任务中，持续的预训练可以将性能提高 10% 以上。

Jun, 2023

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024

使用 LLMs 的数据增强：数据视角、学习范式和挑战

机器学习中的数据增强技术通过多样化训练示例来提高模型性能，本文调查了大型语言模型在自然语言处理和其他领域中对数据增强的转变影响，探讨了利用大型语言模型进行数据增强的各种策略以及所面临的挑战。

Mar, 2024

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024

基于 LLM 的隐私数据增强在医疗文本分类中以分布教师为引导的知识蒸馏

基于差分隐私的数据增强方法提供了隐私保护和文本分类在私有领域的测验。

Feb, 2024

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

低资源语言的分布式数据增强方法

通过提出易分布数据增强（EDDA）和类型特定的相似词替换（TSSR）两种扩展方法，利用语义词上下文信息和词性标签进行词替换和增强，我们展示了这些方法在低资源语言的两个代表数据集上通过 F1 分数度量的实用性，证明了增强数据可以在低资源环境中提高分类性能。

Sep, 2023