LLMaAA:构建大型语言模型用于主动标注
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
Jun, 2024
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
在大型语言模型时代,我们提出了创新的协作学习框架 FreeAL,通过与 LLMs 交互式提取和过滤任务特定知识,显著提高了 SLM 和 LLM 的零样本性能,无需人工监督。
Nov, 2023
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
基于四个不同领域的实验结果,本研究发现,小模型在专家注释的情况下能够以较少标注数据的情况下胜过 GPT-3.5,并且与 GPT-4 在性能上达到或超过其,尽管小模型的规模只有后者的百分之一。因此,我们认为在真实世界的应用中,大型语言模型的预测结果可以作为预热方法,并且通过领域专家的数据注释,实现任务的成功。
Nov, 2023
研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档,发现大型语言模型可作为提取金融文档中关系的高效数据标注工具,并引入了一个可靠性指标用于识别需要专家关注的输出,提供了在特定领域设置中自动化注释的收集和使用的建议。
Mar, 2024
大语言模型(LLMs)在追求超人类表现时,传统上一直依赖于人类注释的数据集和预定义的训练目标 - 这是一种既费时又固有有限的过程。本文提出了一种变革性的方法:自主学习 LLMs,这是一种无监督学习范式,使模型摆脱了人类监督的限制。我们的方法使 LLMs 能够通过与文本的直接交互来自我教育,类似于人类阅读和理解文学。我们的实证结果表明,自主学习在综合实验中表现优于预训练、监督微调以及检索增强方法。这些发现突显了自主学习不仅可以提高 LLMs 训练的效率和效果,还可以为更先进、自主的人工智能系统的发展铺平道路。
Jun, 2024