从随机到有知识的数据选择：基于多样性的方法优化人工标注和少样本学习

Jan, 2024

从随机到有知识的数据选择：基于多样性的方法优化人工标注和少样本学习

From Random to Informed Data Selection: A Diversity-Based Approach to Optimize Human Annotation and Few-Shot Learning

Alexandre Alcoforado, Thomas Palmeira Ferraz, Lucas Hideki Okamura, Israel Campos Fama, Arnold Moya Lavado...

TL;DR在自然语言处理中，获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构，用于建立用于少样本学习的小型数据集，以解决众包标注的问题。

Abstract

A major challenge in natural language processing is obtaining annotated data for supervised learning. An option is the use of crowdsourcing

natural language processing annotated data crowdsourcing zero-shot methods few-shot learning

发现论文，激发创造

多语言少样本转移数据选择的关键是模型中的多样化和不确定性

本文探索了各种数据选择策略，依靠多个度量，利用了渐变嵌入和损失嵌入方法，以提高针对多语言预训练模型的 POS 标记、NER 和 NLI 任务的 Few-shot 迁移的性能。实验证明，所提出的方法始终优于随机数据选择基线，即使仅使用更少的标记数据进行零 - shot 迁移，也能显著提高性能。

Jun, 2022

关于少样本神经文本生成训练实例选择的研究

研究预训练语言模型在少样本条件下的文本生成，并提出了一种基于 K-means 聚类的选择策略，结果表明这种方法能够显著提高生成模型的性能。

Jul, 2021

学习从众的标签选择方法

使用 Learning from Crowds 框架中的 Label Selection Layer 方法，通过选择性网络确定是否使用工人的标签进行训练，提供了一种有效的解决 Crowd annotations 中的标签噪声问题的方法。实验证明该方法在几乎所有的监督学习问题中都能获得与或优于当前最先进的方法相当的性能。

Aug, 2023

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

有选择性的标注使语言模型更好的少样本学习器

本文提出了一种基于在上下文学习的策略，通过选择少量有代表性的例子来进行标注，进而为新的自然语言任务创建数据集，并证明了此方法在不同场景下都具有良好的效果。

Sep, 2022

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

大规模图像分类数据集高效标注的良好实践

本文研究了一种高效的策略收集多类别图像集的分类标签，使用自监督学习技术并将标注问题视为半监督学习问题，并提出了有效的标注指南，用此方案对 ImageNet100 图像集进行模拟实验，结果表明每张图像平均仅需 0.35 个标注，即可标注到 80% 的 top-1 准确率，相比之前的工作和手动注释，分别提高了 2.7 倍和 6.7 倍。

Apr, 2021

减少从语料库中监督式训练的手动标注成本

本文使用委员会式样本选择方法，以减少标注的代价，通过实验结果表明该方法可在自然语言处理中实现显著的效果。

Jun, 1996

清洗或标注：如何使用有限的数据采集预算

本文提出了一种通过在注释过程中专门清理高概率错误样本的方法，以优化注释过程，并在三种模型变化和四个自然语言处理任务上进行的实验证明，该方法在分配相同的有限注释预算时优于聚合注释和高级去噪方法。

Oct, 2021