基于 GPT 自监督的数据标注器优化
通过利用大语言模型,该研究提出了一种自主注释方法,不仅高效而且适用于资源有限的语言,同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。
Feb, 2024
本研究旨在评估 GPT-3 作为数据标注器的性能,比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析,研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。
Dec, 2022
本文介绍了一种称为 Self-QA 的创新框架,利用大量无监督知识代替传统的人工撰写指导文件种子,从而生成更多正确和特定于领域的指导数据,以克服创建用于指导调整的监督配对问答数据所面临的挑战。
May, 2023
提出了一种名为 GenCo 的零样本文本分类方法,利用 GPT 的强大生成能力辅助训练更小、更适应和高效的句子编码器分类器,包括两种方式:一是为每个输入实例生成多个增广文本,提高语义嵌入和标签的映射;二是在自训练期间有条件地生成增广文本,使得生成过程适应目标空间中的决策边界。实验证明,即使只有有限的领域内文本数据,GenCo 也优于以前的最先进方法。
Apr, 2023
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结,探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。
Nov, 2022
本文研究使用最新的生成式预训练转换器(GPT)模型分析各种类型法律文件中一到几句话长度的文本片段的语义注释能力,结果表明该模型能够在零样本学习中表现出色,可广泛应用于语义注释的法律文本处理流程中。
May, 2023
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021