GPT 不是一个标注器：在公平性基准构建中人工标注的必要性

ACLMay, 2024

GPT 不是一个标注器：在公平性基准构建中人工标注的必要性

GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction

Virginia K. Felkner, Jennifer A. Thompson, Jonathan May

TL;DR通过对社区调查的回应，探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务，研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳，产生了无法接受的质量问题，因此推断 GPT-3.5-Turbo 不适合在涉及社会偏见的敏感任务中代替人工标注，并且使用它实际上废除了社区资源偏见标准的许多好处。

Abstract

social biases in llms are usually measured via bias benchmark datasets. Current benchmarks have limitations in scope, grounding, quality,

social biases llms bias benchmark datasets gpt-3.5-turbo community-sourced

发现论文，激发创造

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

GPT 是用于序列生成任务的多语言注释器

通过利用大语言模型，该研究提出了一种自主注释方法，不仅高效而且适用于资源有限的语言，同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。

Feb, 2024

GPT-3 是一个好的数据标注器吗？

本研究旨在评估 GPT-3 作为数据标注器的性能，比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析，研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。

Dec, 2022

聊天机器人不可靠的文本标注工具

对比研究发现，ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异，而监督分类模型一贯表现更优，因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。

Nov, 2023

ChatGPT 优于人工工人在文本注释任务中的表现

本研究使用 2382 个推文的样本表明，ChatGPT 在多个数据标注任务方面表现优于众包工人，特别是零 - shot 准确率，且其内部编码者间一致性超过了众包工人和训练有素的注释员，而其标注成本比 MTurk 便宜二十倍左右，这些结果表明大型语言模型在文本分类方面大大提高了效率。

Mar, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

GPT 生成的英文文本中的性别偏见的规范评级

语言作为一种强大的工具，用于展示社会信仰体系，同时也延续了我们社会中普遍存在的偏见。性别偏见是我们社会中最普遍的偏见之一，在线和离线话语中都有所体现。随着语言模型越来越接近人类的流利程度，我们需要深入了解这些系统可能产生的偏见。先前的研究通常将性别偏见视为二元分类任务。然而，我们认识到偏见必须按照相对的尺度来感知，因此我们研究了各种程度偏见的生成和相关性质，并调查了手动注释者对这些偏见的接受程度。具体来说，我们创建了第一个带有性别偏见的 GPT 生成英文文本数据集，并使用最佳 - 最差比例进行了权威评级以获得相对评估的度量。接下来，我们系统分析了观察到的排名中性别偏见主题的变化，并显示了攻击身份是与性别偏见最相关的。最后，我们展示了现有模型在我们的数据集上训练的相关概念上的性能。

Oct, 2023

ChatGPT 是否能够复现人类生成的标签？社交计算任务的研究

该研究探讨了 ChatGPT 等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释，并使用 ChatGPT 重新标注了五个具有里程碑意义的数据集，证明了它在数据注释方面具有潜力，但仍存在挑战。

Apr, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023