众包和 LLM 的注释质量比较研究

Jan, 2024

A Comparative Study on Annotation Quality of Crowdsourcing and LLM via Label Aggregation

Jiyi Li

TL;DR通过对现有众包数据集进行评估，从不同的角度研究了个体众包标签和大语言模型标签的质量，提出了一种众包 - 大语言模型混合标签聚合方法并验证了其性能，发现将优质大语言模型的标签与现有众包数据集相结合能提高数据集的聚合标签质量，且高于大语言模型标签自身的质量。

Abstract

Whether large language models (LLMs) can outperform crowdsourcing on the data annotation task is attracting interest recently. Some works verified this issue with the average performance of individual crowd worke

large language models crowdsourcing annotation quality benchmark label aggregation

发现论文，激发创造

人工人工人工智能：众包工作者广泛使用大型语言模型进行文本生成任务

本文研究 LLMs 对众包工人的影响，通过对在 Amazon Mechanical Turk 上运行的一个摘要任务，发现 33-46% 的众包工人使用了 LLMs，因此需要找到新的方法确保数据来源于人类本身。

Jun, 2023

面向长期标注者：一个监督的标签聚合基线

依靠众包工人，数据众包平台能够高效地提供大量带标签的数据，本文提出一种名为 SuperLA 的监督标签聚合方法，不需要在推理期间进行模型更新，并且能广泛利用历史标注记录，通过对 22 个公共数据集和 11 个基准方法的比较实验发现，SuperLA 不仅在推理性能上优于所有基准方法，而且在效率方面也具有显著优势。

Nov, 2023

多新闻 +: 基于 LLM 的数据注释的成本效益的数据清洗

利用大型语言模型的数据清洗策略，通过模拟人工注释和分类不相关文档，我们改进了 Multi-News 数据集，提高了数据集质量，而无需依赖昂贵的人工注释工作。

Apr, 2024

大型语言模型中利用标签变异进行零样本文本分类

使用 5 种最先进的大型语言模型（LLMs）作为 “标注者” 在多个任务上进行评估，并比较其与人类标注的优缺点。总体而言，尽管 LLMs 在某些任务上表现出色，但它们无法替代人类标注的需求。

Jul, 2023

LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

May, 2024

硅众智慧：LLM 集合预测能力能媲美人工智能准确性

人类预测准确性依赖于 “群体智慧” 效应，即通过对一群个体预测者进行聚合，可以显著提高对未来事件的预测。本研究通过使用由 12 个大型语言模型（LLM）组成的群体，扩展了过去关于大型语言模型作为预测者的研究。结果表明，通过简单且实际可行的预测聚合方法，LLMs 能够获得与人类群体预测锦标赛相媲美的准确性，从而复制了 “群体智慧” 效应，为 LLMs 在社会各个领域的应用开辟了可能。

Feb, 2024

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

大型语言模型可靠的论点质量标注员吗？

使用最新的大型语言模型作为论证质量评估的代理者，研究了模型、人类专家和新手评估者之间的一致性，结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性，并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性，因此提出大型语言模型可以作为自动化论证质量评估的有价值工具，从而加快了大规模论证数据的评估过程。

Apr, 2024

利用大型语言模型（LLMs）支持人工智能在线风险数据协作注释

利用 LLMs 作为交互式研究工具，促进人类编码员与人工智能之间的合作，有效地标记大规模在线风险数据。

Apr, 2024

基于群众标注的多视角知识蒸馏用于领域外泛化

本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布，从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能，同时还验证了这些方法在任务不确定性估计上表现最佳。

Dec, 2022