Dec, 2023

模型基准度量方法的忠实模型评估

TL;DR统计学意义检验用于自然语言处理(NLP)中,用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中,考虑模型误差对样本方差的影响,并通过公共基准数据集和生产系统的实验,展示了在某些实验中,考虑模型误差计算样本方差对模型基于度量的结果产生了改变。