自监督语言建模的冷启动主动学习
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
ActiveLLM 是一种新颖的主动学习方法,通过利用诸如 GPT-4、Llama 3 和 Mistral Large 之类的大型语言模型来选择实例,显著提高了 BERT 分类器在少样本场景中的分类性能,并且可以扩展到非少样本场景,为各种学习设置提供了改进模型性能的有希望的解决方案。
May, 2024
本文提出了一种基于预训练语言模型的主动学习方法,应用于句子匹配,通过提供语言标准来测量实例并选择更有效的实例进行注释,实验证明该方法可以在更少的标记训练实例的情况下实现更高的准确性。
Oct, 2020
本文探讨使用预训练模型进行主动学习任务中的歧义消除,发现预训练模型使用基于不确定性的主动学习时所需标注数量降低至非预训练模型的五分之一,并且可以通过在预训练的表示空间中选择具有消除歧义的特征属性的数据样本来获得这种性能提升。
Apr, 2022
通过在主动学习循环中使用预训练的大型语言模型的表示,然后在获得所需标记数据后,对这些数据进行微调,从而以较低的计算成本实现与将完全微调的模型相似的性能。
Feb, 2024
该研究提出了一种新的主动学习策略,专门解决大量无标签数据的分类初始化问题,同时处理不平衡的上下文,通过使用元素分数结合从聚类结构提取的信息到标签传播模型来解决标签稀缺和不平衡问题。以 Twitter 内容注释为例,该方法有效地处理了类别不平衡问题,提高了少数类样本的召回率。
Jan, 2022
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
利用 STENCIL 方法,在类不平衡冷启动环境下,通过选择一组弱标记的稀有类别实例并由注释者进行强标记来改善文本分类数据集的整体准确性和稀有类别的 F-1 分数,相对于常见的主动学习方法,STENCIL 方法提高了 10% 至 24% 的整体准确性和 17% 至 40% 的稀有类别 F-1 分数。
Feb, 2024
本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性,并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究,并发现了不同类型模型的最佳组合。此外,我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本,这可以提供更好的计算性能,降低了应用深度主动学习的障碍。
Jan, 2021
本文提出一种创新的主动学习方法,利用自监督的预训练任务和独特的数据采样器,通过选择具有难度和代表性的数据来解决数据标注代价高的问题,并在各种图像分类和分割基准上取得了令人信服的性能。
Jan, 2022