通过选择具有最大边际收益的数据子集,引入了一种基于影响力驱动的选择性注释方法,以降低注释成本并提高上下文示例的质量。实验结果证实了该方法在各种基准测试中的优越性能,以更低的时间消耗在子集选择过程中取得更好的表现。
Oct, 2023
本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果,结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果,从而达到显著的时间和费用节约。
Apr, 2022
通过使用多样的标注员并最大限度降低标注预算,我们提出了一个新的主观任务注释收集和建模框架,通过两阶段设计,使用少量标注员和有策略地标注一些样本,提高了预测性能,并减少了注释预算,同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集,并在两个数据集上展示了我们的框架超越之前的最优结果,捕捉了标注员个体视角并减少了性能差异。
Feb, 2024
本文使用委员会式样本选择方法,以减少标注的代价,通过实验结果表明该方法可在自然语言处理中实现显著的效果。
Jun, 1996
通过新的基于模型的方法,我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式,从而最大程度地减少注释数量,并且几乎不损失知识,同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求,并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系,此外,对于某些数据集,仅依靠我们模型预测的标签进行训练,可作为自监督学习规范化技术,提高任务选择的效率。
Dec, 2023
在自然语言处理中,获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构,用于建立用于少样本学习的小型数据集,以解决众包标注的问题。
Jan, 2024
本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式,通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。
May, 2024
本研究提出了基于技能的少样本选择方法 Skill-KNN,通过优化输入,生成技能表示法,解决了现有基于预训练嵌入模型的表面自然语言特征易受干扰的问题。经过实验证明,在四个跨领域语义分析任务和四个骨架模型中,Skill-KNN 的表现明显优于现有方法。
May, 2023
本文旨在研究知识抽取技术对于不同规模和架构的语言模型训练的影响以及如何在各种下游 NLP 任务中进行有效的迁移学习。研究发现,在预训练中选取适当的知识可以显著提高语言模型的泛化性能,数据量越大效果越好,而平衡不同方面的抽样策略可以提高编码解码模型的性能。
May, 2022
研究预训练语言模型在少样本条件下的文本生成,并提出了一种基于 K-means 聚类的选择策略,结果表明这种方法能够显著提高生成模型的性能。
Jul, 2021