实用教程：结合大型语言模型与人参与的标注

Nov, 2024

实用教程：结合大型语言模型与人参与的标注

Hands-On Tutorial: Labeling with LLM and Human-in-the-Loop

Ekaterina Artemova, Akim Tsvigun, Dominik Schlechtweg, Natalia Fedorova, Sergei Tilga...

TL;DR本研究解决了机器学习模型训练过程中的人工标注成本高和耗时长的问题。通过介绍合成训练数据、主动学习和混合标注等策略，提供了优化数据标注的实践方法，并通过实际案例分析说明了各策略的优缺点及最佳实践。研究的主要发现是，采用混合标注设置可以有效提高标注效率和数据集质量。

Abstract

Training and deploying Machine Learning models relies on a large amount of human-annotated data. As human labeling becomes increasingly expensive and time-consuming, recent research has developed multiple strategies to speed up annotation and reduce costs and human workload: generating

发现论文，激发创造

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用LLM的注释潜力，然后使用GPT-4复制27个注释任务，发现文本注释的LLM性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的LLM部署。

May, 2023

模拟标注员思维：数据集标注指令生成

我们引入了一个新的任务，标签指令生成，旨在解决缺少公开可用的标注说明的问题，我们介绍了一个无需模型训练的框架，并使用一个新创建的快速检索系统，利用大型预训练视觉和语言模型，生成数据集类别的多个不同的视觉和文本表示，我们优化后的标注指令集在5个折叠中比NuImages高出7.06 mAP，比COCO高出12.9 mAP。

Jun, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

大型语言模型的自动学习方法

使用大型语言模型（GPT-3.5和GPT-4）进行标注，研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略，将可能标注错误的样本与人工注释相结合，可以在AG新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果，证明了大型语言模型在主动学习中的准确性和成本效益。

Jan, 2024

循环中的LLM：利用大型语言模型注释在低资源语言中进行主动学习

通过在主动学习环路中利用LLM的潜力进行数据标注，我们的提议在极低的数据需求下显著提高了性能，为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟，促进更广泛的包容，并有潜力在不同的语言环境中实现自动化。

Apr, 2024

通过LLM驱动的主动学习和人工标注来增强文本分类

该研究引入了一种新的方法，将人工标注和大语言模型（LLMs）与主动学习框架结合，以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明，在降低数据标注成本的同时，模型准确性得到了保持或提高。

Jun, 2024

自动注释中的知识蒸馏：由LLM生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

把人类纳入循环：以人为中心的生成AI自动注释

本研究针对现有生成大型语言模型（LLMs）在社交媒体研究中的自动文本注释的局限性进行探讨，提出了一种以人为中心的框架来评估AI工具的责任性。通过使用GPT-4在多个受保护数据集上进行注释任务，发现尽管生成的注释整体质量较高，但在任务执行过程中存在显著的性能差异，强调了依赖人类生成的验证标签对自动注释进行负责评估的重要性。

Sep, 2024

保持人类在循环中：以人为本的生成式人工智能自动标注

本研究针对自动文本标注中人类与人工智能模型之间的协作问题，提出了一种以人为中心的框架进行评估。通过使用GPT-4在多个受保护数据集上复制27项标注任务，研究发现尽管LLM的标注质量普遍较高，但在任务间的表现却存在显著差异，这强调了人类验证标签在自动标注评估中的重要性。

Sep, 2024

大语言模型是否比报道中更优秀？检测标签错误及其对模型性能的影响

本研究解决了当前自然语言处理基准数据集标签质量不足的问题，探讨了如何利用大语言模型（LLMs）来检测数据集中可能存在的标签错误。研究表明，通过纠正这些标签错误，可以显著提升模型的性能，这表明大语言模型的错误多半是由于标签问题，而非模型本身的不足。

Oct, 2024