利用大型语言模型为主题元数据添加注释:澳大利亚国家研究数据目录的案例研究
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途,探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成的标注进行学习的方法。此外,还提供了 LLM 在数据标注中的方法学分类、包含 LLM 生成标注的模型的学习策略综述,并详细讨论了使用 LLM 进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的 LLMs 进行数据标注,推动该关键领域的未来发展。
Feb, 2024
研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档,发现大型语言模型可作为提取金融文档中关系的高效数据标注工具,并引入了一个可靠性指标用于识别需要专家关注的输出,提供了在特定领域设置中自动化注释的收集和使用的建议。
Mar, 2024
利用 ChatGPT 作为注释器,我们在预训练语言模型中发现潜在概念,并采用 GPT 注释进行注释。我们的发现表明,与人类注释概念相比,ChatGPT 产生了准确且语义更丰富的注释。此外,我们展示了 GPT-based 注释如何增强解释分析方法,其中我们展示了两个分析框架:probing framework 和 neuron interpretation。为了促进进一步的探索和实验,我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。
May, 2023
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
通过验证人类生成的标签,我们提出了一种工作流程,以有效利用 LLM 的注释潜力,然后使用 GPT-4 复制 27 个注释任务,发现文本注释的 LLM 性能很有前途,但高度依赖数据集和注释任务类型,从而强调了必须逐任务验证的必要性。我们提供易于使用的软件,用于实现我们的工作流程,以便自动化注释的 LLM 部署。
May, 2023
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
Jun, 2024