保持人类在循环中:以人为本的生成式人工智能自动标注
本文研究了如何使用最先进的神经语言模型使人工创作的文本过渡为文本生成,并且展示了该任务上的众议员的技能差异。通过比较多种变量的影响,我们收集了RoFT数据集,以鼓励未来在人工检测和评估生成的文本方面进行更多的研究。
Dec, 2022
该研究探讨了ChatGPT等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释,并使用ChatGPT重新标注了五个具有里程碑意义的数据集,证明了它在数据注释方面具有潜力,但仍存在挑战。
Apr, 2023
通过验证人类生成的标签,我们提出了一种工作流程,以有效利用LLM的注释潜力,然后使用GPT-4复制27个注释任务,发现文本注释的LLM性能很有前途,但高度依赖数据集和注释任务类型,从而强调了必须逐任务验证的必要性。我们提供易于使用的软件,用于实现我们的工作流程,以便自动化注释的LLM部署。
May, 2023
大型语言模型(LLMs)可比人类更快速和廉价地对各种NLP任务进行数据标注。然而,LLMs在理解复杂的社会文化或领域特定的上下文方面可能存在问题,导致错误的标注。因此,我们主张人类和LLMs合作的方法,以产生可靠和高质量的标签。我们介绍了MEGAnno+,这是一个人-LLM协作标注系统,提供了有效的LLM代理和标注管理、便捷和稳健的LLM标注,以及人类对LLM标签的探索性验证。
Feb, 2024
通过比较概述了12个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的GPT意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024
分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性,并探讨了人工标注者与模型的判断差异,发现模型通常在人工标注者很难达成一致意见的情况下表现不佳,对于进一步提高自动立场检测的准确性和全面性,建议综合运用人工专业知识和模型预测的方法。
Jun, 2024
使用生成的大型语言模型生成的标签对监督文本分类模型进行微调,与使用人工标注的标签相比表现相当,是一种快速、高效和经济有效的构建监督文本分类器的方法。
Jun, 2024
大型语言模型在社会科学文本标注任务中应用广泛,其性能超过人类工作者且成本更低。然而,我们以往对选择提示对标注准确性的影响尚未进行过研究。在本研究中,我们展示了性能在不同提示之间存在巨大差异,并运用自动提示优化的方法系统地设计出高质量提示。同时,我们还提供了一个简单的基于浏览器实现的方法链接给社区。
Jul, 2024
本研究针对现有生成大型语言模型(LLMs)在社交媒体研究中的自动文本注释的局限性进行探讨,提出了一种以人为中心的框架来评估AI工具的责任性。通过使用GPT-4在多个受保护数据集上进行注释任务,发现尽管生成的注释整体质量较高,但在任务执行过程中存在显著的性能差异,强调了依赖人类生成的验证标签对自动注释进行负责评估的重要性。
Sep, 2024