有选择性的标注使语言模型更好的少样本学习器

Sep, 2022

有选择性的标注使语言模型更好的少样本学习器

Selective Annotation Makes Language Models Better Few-Shot Learners

Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang...

TL;DR本文提出了一种基于在上下文学习的策略，通过选择少量有代表性的例子来进行标注，进而为新的自然语言任务创建数据集，并证明了此方法在不同场景下都具有良好的效果。

Abstract

Many recent approaches to natural language tasks are built on the remarkable abilities of large language models. large language models can

in-context learning selective annotation natural language tasks large language models dataset creation

发现论文，激发创造

IDEAL：影响驱动的选择性注释强化大型语言模型中的上下文学习者

通过选择具有最大边际收益的数据子集，引入了一种基于影响力驱动的选择性注释方法，以降低注释成本并提高上下文示例的质量。实验结果证实了该方法在各种基准测试中的优越性能，以更低的时间消耗在子集选择过程中取得更好的表现。

Oct, 2023

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

减少从语料库中监督式训练的手动标注成本

本文使用委员会式样本选择方法，以减少标注的代价，通过实验结果表明该方法可在自然语言处理中实现显著的效果。

Jun, 1996

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

从随机到有知识的数据选择：基于多样性的方法优化人工标注和少样本学习

在自然语言处理中，获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构，用于建立用于少样本学习的小型数据集，以解决众包标注的问题。

Jan, 2024

预训练的视觉语言模型作为部分注解器

本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式，通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注，进而获得多个候选标签以形成含噪部分标签的数据集，并设计了一种协作一致性正则化算法来解决这个问题。实验表明，该方法在无需额外标签信息的情况下显著优于零样本推理，优于其他弱监督学习和少样本微调方法，并获得了更小的模型。

May, 2024

基于技能的少样本选择用于上下文学习

本研究提出了基于技能的少样本选择方法 Skill-KNN，通过优化输入，生成技能表示法，解决了现有基于预训练嵌入模型的表面自然语言特征易受干扰的问题。经过实验证明，在四个跨领域语义分析任务和四个骨架模型中，Skill-KNN 的表现明显优于现有方法。

May, 2023

知识图谱通识自监督的实证研究

本文旨在研究知识抽取技术对于不同规模和架构的语言模型训练的影响以及如何在各种下游 NLP 任务中进行有效的迁移学习。研究发现，在预训练中选取适当的知识可以显著提高语言模型的泛化性能，数据量越大效果越好，而平衡不同方面的抽样策略可以提高编码解码模型的性能。

May, 2022

关于少样本神经文本生成训练实例选择的研究

研究预训练语言模型在少样本条件下的文本生成，并提出了一种基于 K-means 聚类的选择策略，结果表明这种方法能够显著提高生成模型的性能。

Jul, 2021