保持人类在循环中：以人为本的生成式人工智能自动标注

Sep, 2024

保持人类在循环中：以人为本的生成式人工智能自动标注

Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI

Nicholas Pangakis, Samuel Wolken

TL;DR本研究针对自动文本标注中人类与人工智能模型之间的协作问题，提出了一种以人为中心的框架进行评估。通过使用GPT-4在多个受保护数据集上复制27项标注任务，研究发现尽管LLM的标注质量普遍较高，但在任务间的表现却存在显著差异，这强调了人类验证标签在自动标注评估中的重要性。

Abstract

Automated text annotation is a compelling use case for generative large language models (LLMs) in social media research. Recent work suggests that LLMs can achieve strong performance on annotation tasks; however, these studies evaluate LLMs on a small number of tasks and likely suffer from contamination due to a reliance on public benchmark datasets. Here, w

发现论文，激发创造

真假文本？：探究人类识别人写与机器生成文本边界的能力

本文研究了如何使用最先进的神经语言模型使人工创作的文本过渡为文本生成，并且展示了该任务上的众议员的技能差异。通过比较多种变量的影响，我们收集了RoFT数据集，以鼓励未来在人工检测和评估生成的文本方面进行更多的研究。

Dec, 2022

ChatGPT 是否能够复现人类生成的标签？社交计算任务的研究

该研究探讨了ChatGPT等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释，并使用ChatGPT重新标注了五个具有里程碑意义的数据集，证明了它在数据注释方面具有潜力，但仍存在挑战。

Apr, 2023

利用自然语言解释缩放人类判断

本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

May, 2023

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用LLM的注释潜力，然后使用GPT-4复制27个注释任务，发现文本注释的LLM性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的LLM部署。

May, 2023

MEGAnno+: 一个人类-LLM协作的标注系统

大型语言模型（LLMs）可比人类更快速和廉价地对各种NLP任务进行数据标注。然而，LLMs在理解复杂的社会文化或领域特定的上下文方面可能存在问题，导致错误的标注。因此，我们主张人类和LLMs合作的方法，以产生可靠和高质量的标签。我们介绍了MEGAnno+，这是一个人-LLM协作标注系统，提供了有效的LLM代理和标注管理、便捷和稳健的LLM标注，以及人类对LLM标签的探索性验证。

Feb, 2024

LLMs作为标注者的有效性：直接表征的比较概述和实证分析

通过比较概述了12个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的GPT意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

May, 2024

推进社交媒体帖子立场注释：对大型语言模型和众包的比较分析

分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性，并探讨了人工标注者与模型的判断差异，发现模型通常在人工标注者很难达成一致意见的情况下表现不佳，对于进一步提高自动立场检测的准确性和全面性，建议综合运用人工专业知识和模型预测的方法。

Jun, 2024

自动注释中的知识蒸馏：由LLM生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

怎样选择提示很重要：利用大型语言模型提升社会科学文本注释

大型语言模型在社会科学文本标注任务中应用广泛，其性能超过人类工作者且成本更低。然而，我们以往对选择提示对标注准确性的影响尚未进行过研究。在本研究中，我们展示了性能在不同提示之间存在巨大差异，并运用自动提示优化的方法系统地设计出高质量提示。同时，我们还提供了一个简单的基于浏览器实现的方法链接给社区。

Jul, 2024

把人类纳入循环：以人为中心的生成AI自动注释

本研究针对现有生成大型语言模型（LLMs）在社交媒体研究中的自动文本注释的局限性进行探讨，提出了一种以人为中心的框架来评估AI工具的责任性。通过使用GPT-4在多个受保护数据集上进行注释任务，发现尽管生成的注释整体质量较高，但在任务执行过程中存在显著的性能差异，强调了依赖人类生成的验证标签对自动注释进行负责评估的重要性。

Sep, 2024