ChatGPT 优于人工工人在文本注释任务中的表现

Mar, 2023

ChatGPT 优于人工工人在文本注释任务中的表现

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Fabrizio Gilardi, Meysam Alizadeh, Maël Kubli

TL;DR本研究使用2382个推文的样本表明，ChatGPT在多个数据标注任务方面表现优于众包工人，特别是零-shot准确率，且其内部编码者间一致性超过了众包工人和训练有素的注释员，而其标注成本比MTurk便宜二十倍左右，这些结果表明大型语言模型在文本分类方面大大提高了效率。

Abstract

Many nlp applications require manual data annotations for a variety of tasks, notably to train classifiers or evaluate the performance of unsupervised models. Depending on the size and degree of complexity, the tasks may be conducted by crowd-workers on platforms such as MTurk as well

发现论文，激发创造

ChatGPT：全才，非专才

本文研究了ChatGPT在25个多样化的自然语言处理任务（如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答）中的表现及其个性化响应能力，并与现有的国际先进水平（SOTA）解决方案进行了比较。结果表明，任务难度越高（低SOTA表现），ChatGPT的损失越大。同时也揭示了ChatGPT偏见，在一定程度上限制了ChatGPT的有效性。

Feb, 2023

AnnoLLM:使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

ChatGPT 是否能够复现人类生成的标签？社交计算任务的研究

该研究探讨了ChatGPT等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释，并使用ChatGPT重新标注了五个具有里程碑意义的数据集，证明了它在数据注释方面具有潜力，但仍存在挑战。

Apr, 2023

对 ChatGPT 文本注释和分类可靠性的测试：一则警示

该研究调查了 ChatGPT 在零-shot 文本标注和分类任务中一致性的表现，包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值，并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证，例如与人类注释数据的比较，并不推荐使用 ChatGPT 进行无监督文本标注和分类。

Apr, 2023

ChatGPT是否解决了信息提取？绩效、评估标准、鲁棒性和错误分析

本文评估了ChatGPT模型在性能、评估标准、稳健性和错误类型四个方面的能力，并提出了一种用于更准确反映ChatGPT性能的软匹配策略，同时发现了ChatGPT的最主要的错误类型是“未注释的跨度”，从而引发了对标注数据质量的关注，并提示可以使用ChatGPT进行数据标注。

May, 2023

ChatGPT在基准数据集上的系统研究和综合评估

本文通过评估ChatGPT在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT和人工服务（如MTurk）在文本标注任务中的表现。发现开源LLMs在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然ChatGPT在大多数任务中表现最好，但开源LLMs在特定任务中也有较高的竞争潜力。

Jul, 2023

聊天机器人不可靠的文本标注工具

对比研究发现，ChatGPT和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异，而监督分类模型一贯表现更优，因此不建议在社会科学研究中使用ChatGPT进行实质性的文本标注任务。

Nov, 2023

ChatGPT真实能力调查

我们在这篇论文中调查了ChatGPT在七个自然语言处理任务领域的真实性能水平，回顾了ChatGPT的社会影响和安全问题，并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示ChatGPT的黑盒特性，以免研究人员被其表面生成所误导。

Apr, 2024

探索ChatGPT在社交计算任务中重现人类标签的能力（扩展版）

利用大型语言模型（LLMs）如ChatGPT可以通过包容性、道德和可持续的方式解决社会挑战。本文中，我们调查了ChatGPT在社会计算任务中注释数据的潜力，旨在降低进行网络研究的复杂性和成本。通过使用ChatGPT重新注释涵盖与COVID-19虚假信息、社交机器人欺骗、网络欺凌、点击诱饵新闻和俄乌战争等紧迫社会问题相关的七个数据集来评估ChatGPT的潜力。研究结果表明，ChatGPT在处理这些数据注释任务方面表现出很高的潜力，尽管存在一些挑战。在这七个数据集中，ChatGPT的平均注释F1得分为72.00%。其在点击诱饵新闻注释方面表现出色，正确标记数据的比例为89.66%。然而，我们还观察到不同标签的性能存在显著差异。我们的研究揭示了ChatGPT注释性能中的可预测模式。因此，我们提出了GPT-Rater，这是一个工具，用于预测ChatGPT是否能正确标记给定注释任务的数据。研究人员可以使用此工具来确定ChatGPT在其注释需求中是否合适。我们展示了GPT-Rater有效地预测了ChatGPT的性能。在点击诱饵新闻标题数据集上表现最佳，平均F1得分为95.00%。我们相信这项研究为分析开辟了新的途径，并且可以降低参与社会计算研究的障碍。

Jul, 2024