Jan, 2024

度量迷宫导航:调和分数幅度和准确性

TL;DR本文研究了现代测量方法的 “动态范围”,旨在提供有关分数差异的集体理解,包括在测量之间以及内部分数之间的意义,即我们问对于人类来说,系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估,使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值,我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下,我们还探讨了指标差异和准确性对于更细粒度特征的影响,例如翻译方向、领域和系统接近程度。