本文提出了一种以 GPT 为基础的自监督注释方法,运用一次学习和生成恢复的范例,达到了不错的注释效果
Jun, 2023
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
本研究旨在评估 GPT-3 作为数据标注器的性能,比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析,研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。
Dec, 2022
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
通过对社区调查的回应,探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务,研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳,产生了无法接受的质量问题,因此推断 GPT-3.5-Turbo 不适合在涉及社会偏见的敏感任务中代替人工标注,并且使用它实际上废除了社区资源偏见标准的许多好处。
May, 2024
本文提出了一种新的机器翻译数据集,利用 GIF 作为中介,从单语注释器中收集平行句子,从而降低了需要寻找、训练双语人员的成本,并经过内在和外在评估,发现使用 GIFs 收集的句子确实具有更高的质量。
Jun, 2021
介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率,并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。
Aug, 2022
SeqGPT 是一种增强的双语模型,专门用于开放领域自然语言理解,通过两个原子任务来表达所有的 NLU 任务并进行指令微调和深度微调,展示了良好的分类和抽取能力,可在未见领域上执行语言理解任务。
Aug, 2023
本研究提出了 VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1%,0.5%和 1%的训练,结果表明,我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8%,在 Conceptual Captions 上高达 5.4%,并在医学报告生成数据集 IU X-ray 上取得了最新的结果。
Feb, 2021
本文研究了利用 GPT-3 作为低成本数据标注器来训练其他模型的方法,发现使用 GPT-3 相比使用人工标签可节省 50% 到 96% 的成本,并提出了一种将 GPT-3 的伪标签与人类标签相结合的框架,可实现更好的表现。
Aug, 2021