LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

COLINGMay, 2024

LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation

Maja Pavlovic, Massimo Poesio

TL;DR通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

Abstract

large language models (LLMs) have emerged as powerful support tools across various natural language tasks and a range of application domains. Recent studies focus on exploring their capabilities for data annotation

large language models data annotation labelling data gpt-generated opinion distributions empirical analysis

发现论文，激发创造

大型语言模型作为金融数据注释工具的效果与效率研究

研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档，发现大型语言模型可作为提取金融文档中关系的高效数据标注工具，并引入了一个可靠性指标用于识别需要专家关注的输出，提供了在特定领域设置中自动化注释的收集和使用的建议。

Mar, 2024

数据标注的大型语言模型调查

数据标注是提高机器学习模型效果的标记或标签化原始数据的过程，使用大型语言模型（LLMs）可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途，探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成的标注进行学习的方法。此外，还提供了 LLM 在数据标注中的方法学分类、包含 LLM 生成标注的模型的学习策略综述，并详细讨论了使用 LLM 进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的 LLMs 进行数据标注，推动该关键领域的未来发展。

Feb, 2024

大型语言模型文本标注的最佳实践

本文提出了对大型语言模型（LLMs）的可靠、可重复和符合伦理的使用的全面标准和最佳实践，涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域，强调了对 LLMs 的结构化、有导向性和格式化的使用的需求，以确保文本注释实践的完整性和鲁棒性，并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。

Feb, 2024

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用 LLM 的注释潜力，然后使用 GPT-4 复制 27 个注释任务，发现文本注释的 LLM 性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的 LLM 部署。

May, 2023

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

您是一位专业的语言标注专家”：LLMs 作为抽象意义表达分析器的限制

通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果，研究发现这些模型能够可靠地重现 AMR 的基本格式，并且通常能够捕捉到核心事件、论证和修饰结构，但模型的输出容易出现频繁和重大错误，从整体上来看，即使在演示中，模型也几乎没有成功地产生完全准确的解析结果，这表明这些模型尽管能够捕捉到语义结构的某些方面，但在支持完全准确的语义分析或解析方面仍存在关键的局限性。

Oct, 2023

循环中的 LLM：利用大型语言模型注释在低资源语言中进行主动学习

通过在主动学习环路中利用 LLM 的潜力进行数据标注，我们的提议在极低的数据需求下显著提高了性能，为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟，促进更广泛的包容，并有潜力在不同的语言环境中实现自动化。

Apr, 2024

LLMs 是否可以促进预训练语言模型的解释？

利用 ChatGPT 作为注释器，我们在预训练语言模型中发现潜在概念，并采用 GPT 注释进行注释。我们的发现表明，与人类注释概念相比，ChatGPT 产生了准确且语义更丰富的注释。此外，我们展示了 GPT-based 注释如何增强解释分析方法，其中我们展示了两个分析框架：probing framework 和 neuron interpretation。为了促进进一步的探索和实验，我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。

May, 2023