大型语言模型的自动学习方法
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
Jun, 2024
在大型语言模型时代,我们提出了创新的协作学习框架 FreeAL,通过与 LLMs 交互式提取和过滤任务特定知识,显著提高了 SLM 和 LLM 的零样本性能,无需人工监督。
Nov, 2023
通过使用大型语言模型作为注释者,并将其放入主动学习循环中,我们提出了 LLMaAA 方法,充分发挥大型语言模型的潜力并有效利用大量无标签数据,提高效率和可靠性,并且在命名实体识别和关系抽取等自然语言处理任务上取得了超过其他基线方法的更高性能。
Oct, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
基于四个不同领域的实验结果,本研究发现,小模型在专家注释的情况下能够以较少标注数据的情况下胜过 GPT-3.5,并且与 GPT-4 在性能上达到或超过其,尽管小模型的规模只有后者的百分之一。因此,我们认为在真实世界的应用中,大型语言模型的预测结果可以作为预热方法,并且通过领域专家的数据注释,实现任务的成功。
Nov, 2023
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
本文介绍多任务学习和主动学习的结合在 NLP 领域中的应用,提供了一些多任务选择标准,论证了多任务学习的有效性,使得在避免过多的文本标注方面更为高效。
Aug, 2022
该研究提出了一种新的主动学习框架,通过加入自然语言解释生成模型,实现在低资源条件下减少标签和解释注释的人工成本,并提升了决策方案生成的效果。
May, 2023