基于 GPT 自监督的数据标注器优化

Jun, 2023

基于 GPT 自监督的数据标注器优化

GPT Self-Supervision for a Better Data Annotator

Xiaohuan Pei, Yanxi Li, Chang Xu

TL;DR本文提出了一种以 GPT 为基础的自监督注释方法，运用一次学习和生成恢复的范例，达到了不错的注释效果

Abstract

The task of annotating data into concise summaries poses a significant challenge across various domains, frequently requiring the allocation of significant time and specialized knowledge by human experts. Despite existing efforts to use large language models for annotation tasks, significant problems such as limited applicability to unlabeled data, the absen

data annotation gpt self-supervision one-shot learning structured data

发现论文，激发创造

GPT 是用于序列生成任务的多语言注释器

通过利用大语言模型，该研究提出了一种自主注释方法，不仅高效而且适用于资源有限的语言，同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。

Feb, 2024

GPT-3 是一个好的数据标注器吗？

本研究旨在评估 GPT-3 作为数据标注器的性能，比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析，研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。

Dec, 2022

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

面向零样本文本分类的生成驱动对比自训练及指导调优 GPT

提出了一种名为 GenCo 的零样本文本分类方法，利用 GPT 的强大生成能力辅助训练更小、更适应和高效的句子编码器分类器，包括两种方式：一是为每个输入实例生成多个增广文本，提高语义嵌入和标签的映射；二是在自训练期间有条件地生成增广文本，使得生成过程适应目标空间中的决策边界。实验证明，即使只有有限的领域内文本数据，GenCo 也优于以前的最先进方法。

Apr, 2023

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

使用 GPT-3 进行零 - shot 意见摘要

本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结，探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。

Nov, 2022

法律领域实际应用拓展：评估 GPT 在零样本法律文本语义标注中的作用

本文研究使用最新的生成式预训练转换器（GPT）模型分析各种类型法律文件中一到几句话长度的文本片段的语义注释能力，结果表明该模型能够在零样本学习中表现出色，可广泛应用于语义注释的法律文本处理流程中。

May, 2023

使用远程监督的部分对齐数据到文本生成

本文提出一种新型半对齐数据生成器以更好地利用从 Wikipedia 至 Wikidata 等来源的自动注释数据，并进行了一系列实验以验证其效果。

Oct, 2020

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021