面向自然语言处理的预训练表征的高效主动学习
本文讨论使用预训练语言模型在自然语言处理中进行主动学习时存在的问题,并提出了使用先前所有的未标注数据来适应目标任务的解决方法,同时也提出了一种简单有效的微调方法来保证适应的语言模型在低资源和高资源情况下都能得到适当的训练,实验结果表明,相比标准的微调方法,我们的方法提供了显著的数据效率改进,这表明一个不良的训练策略可能对主动学习产生灾难性的影响。
Apr, 2021
本文全面评估了基于预训练变压器语言模型的表示法在主动学习中的有效性,发现 BERT 般的模型比 word2vec 和包 - of-words 等更常见的表示法表现更好,同时提出了一种自适应调整主动学习方法,利用有限的标签信息训练分类器和适应性改进 BERT 模型生成的嵌入。
Apr, 2020
ActiveLLM 是一种新颖的主动学习方法,通过利用诸如 GPT-4、Llama 3 和 Mistral Large 之类的大型语言模型来选择实例,显著提高了 BERT 分类器在少样本场景中的分类性能,并且可以扩展到非少样本场景,为各种学习设置提供了改进模型性能的有希望的解决方案。
May, 2024
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
通过使用大型语言模型作为注释者,并将其放入主动学习循环中,我们提出了 LLMaAA 方法,充分发挥大型语言模型的潜力并有效利用大量无标签数据,提高效率和可靠性,并且在命名实体识别和关系抽取等自然语言处理任务上取得了超过其他基线方法的更高性能。
Oct, 2023
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
Jun, 2024
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型,通过使用任务数据作为查询提取一小部分通用语料库,并从头开始联合优化任务目标和语言建模目标,在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果,而将训练 FLOPs 减少了两个数量级。
Nov, 2021
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023