自然语言理解中样本量确定的重新审视

ACLJul, 2023

自然语言理解中样本量确定的重新审视

Revisiting Sample Size Determination in Natural Language Understanding

Ernie Chang, Muhammad Hassan Rashid, Pin-Jie Lin, Changsheng Zhao, Vera Demberg...

TL;DR通过使用少量的训练样本来预测最大的可实现模型性能，以预测数据的质量和样本大小。

Abstract

Knowing exactly how many data points need to be labeled to achieve a certain model performance is a hugely beneficial step towards reducing the overall budgets for annotation. It pertains to both active learning

data labeling active learning training sample size model performance nlp

发现论文，激发创造

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

微调、提示、上下文学习和指导微调：我们需要多少标记样本？

在本研究中，我们旨在调查专用模型需要多少标记样本才能达到优越性能，同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为，确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点，发现专用模型通常只需要少量样本（100-1000）就能达到或超越通用模型。与此同时，所需的标记数据量强烈依赖于任务复杂度和结果方差。

Feb, 2024

医疗研究中的自然语言处理样本量

该研究提供了关于选择适当的样本大小和类别比例以及构建文本医疗数据分类器时预测预期性能的建议，模拟结果为样本大小计算提供了指导，也可在其他数据集上进行样本量估计计算。

Sep, 2023

关于数据标注的高效和统计质量估计

使用置信区间寻找估计注释错误率所需的最小样本量，然后提出应用接受抽样作为错误率估计的一种替代方法，展示接受抽样可以减少最多 50% 的所需样本量，同时提供相同的统计保证。

May, 2024

大型语言模型作为注释器：在最小成本下增强 NLP 模型的泛化能力

研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性，并提出一种基于模型预测得分差异的采样策略来重新训练模型，证明在分类和排名任务中取得了显著的精度提高。

Jun, 2023

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021

比较摘要模型需要多少注释？

在这项研究中，我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小，发现只需要少于 100 个样本即可收敛，并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。

Feb, 2024

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022

揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

多次注释数据集的性能分数可能会因数据集扩大，从单个注释变为多个注释而有所不同，我们的研究挑战了传统观念，表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。

Oct, 2023

减少从语料库中监督式训练的手动标注成本

本文使用委员会式样本选择方法，以减少标注的代价，通过实验结果表明该方法可在自然语言处理中实现显著的效果。

Jun, 1996