AnnoLLM:使大型语言模型成为更好的众包注释工具
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
本研究使用2382个推文的样本表明,ChatGPT在多个数据标注任务方面表现优于众包工人,特别是零-shot准确率,且其内部编码者间一致性超过了众包工人和训练有素的注释员,而其标注成本比MTurk便宜二十倍左右,这些结果表明大型语言模型在文本分类方面大大提高了效率。
Mar, 2023
通过验证人类生成的标签,我们提出了一种工作流程,以有效利用LLM的注释潜力,然后使用GPT-4复制27个注释任务,发现文本注释的LLM性能很有前途,但高度依赖数据集和注释任务类型,从而强调了必须逐任务验证的必要性。我们提供易于使用的软件,用于实现我们的工作流程,以便自动化注释的LLM部署。
May, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
通过使用大型语言模型作为注释者,并将其放入主动学习循环中,我们提出了LLMaAA方法,充分发挥大型语言模型的潜力并有效利用大量无标签数据,提高效率和可靠性,并且在命名实体识别和关系抽取等自然语言处理任务上取得了超过其他基线方法的更高性能。
Oct, 2023
通过对现有众包数据集进行评估,从不同的角度研究了个体众包标签和大语言模型标签的质量,提出了一种众包-大语言模型混合标签聚合方法并验证了其性能,发现将优质大语言模型的标签与现有众包数据集相结合能提高数据集的聚合标签质量,且高于大语言模型标签自身的质量。
Jan, 2024
通过利用大语言模型,该研究提出了一种自主注释方法,不仅高效而且适用于资源有限的语言,同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。
Feb, 2024
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于LLM在数据标注中的特定用途,探讨了LLM基于数据标注、评估LLM生成的标注以及使用LLM生成的标注进行学习的方法。此外,还提供了LLM在数据标注中的方法学分类、包含LLM生成标注的模型的学习策略综述,并详细讨论了使用LLM进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的LLMs进行数据标注,推动该关键领域的未来发展。
Feb, 2024
通过在主动学习环路中利用LLM的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024