GPT 是用于序列生成任务的多语言注释器

ACLFeb, 2024

GPT 是用于序列生成任务的多语言注释器

GPTs Are Multilingual Annotators for Sequence Generation Tasks

Juhwan Choi, Eunju Lee, Kyohoon Jin, YoungBin Kim

TL;DR通过利用大语言模型，该研究提出了一种自主注释方法，不仅高效而且适用于资源有限的语言，同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。

Abstract

data annotation is an essential step for constructing new datasets. However, the conventional approach of data annotation through crowdsourcing

data annotation crowdsourcing language models low-resource languages image captioning dataset

发现论文，激发创造

基于 GPT 自监督的数据标注器优化

本文提出了一种以 GPT 为基础的自监督注释方法，运用一次学习和生成恢复的范例，达到了不错的注释效果

Jun, 2023

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

GPT-3 是一个好的数据标注器吗？

本研究旨在评估 GPT-3 作为数据标注器的性能，比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析，研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。

Dec, 2022

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

GPT 不是一个标注器：在公平性基准构建中人工标注的必要性

通过对社区调查的回应，探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务，研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳，产生了无法接受的质量问题，因此推断 GPT-3.5-Turbo 不适合在涉及社会偏见的敏感任务中代替人工标注，并且使用它实际上废除了社区资源偏见标准的许多好处。

May, 2024

不要排除掉单语言说话者：一种众包机器翻译数据的方法

本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Jun, 2021

基于通用语言模型的非英语医学自然语言处理注释数据集构建

介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率，并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。

Aug, 2022

SeqGPT：一个开箱即用的开放领域序列理解大语言模型

SeqGPT 是一种增强的双语模型，专门用于开放领域自然语言理解，通过两个原子任务来表达所有的 NLU 任务并进行指令微调和深度微调，展示了良好的分类和抽取能力，可在未见领域上执行语言理解任务。

Aug, 2023

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021

想要降低标注成本？GPT-3 可以帮忙

本文研究了利用 GPT-3 作为低成本数据标注器来训练其他模型的方法，发现使用 GPT-3 相比使用人工标签可节省 50% 到 96% 的成本，并提出了一种将 GPT-3 的伪标签与人类标签相结合的框架，可实现更好的表现。

Aug, 2021