Nov, 2023

数据选择的熵和边缘得分指标的全面基准评估

TL;DR在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集,然后进行以评分为基础的选择来增强训练数据实验,与随机选择的基线技术相比,结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。