度量学习的现实检验
通过研究机器学习中的数据泄露和出版偏见等因素,本研究提出了一种新颖的随机模型来估计真实准确性,并纠正了过度乐观的诊断结果,从而提供了更真实的机器学习性能评估。
May, 2024
本研究通过实验证明了现有的基于任务准确率的持续学习性能度量方法的局限性,并提出了一个公平且更有用的评估指标 Minimal Incremental Class Accuracy(MICA),以及一个综合考虑学习性能变化的单一标量度量方法。
Apr, 2024
通过对 PGD 攻击下的深度表示的实证分析,我们发现攻击会导致内部表示向 “误分类” 类别移动。基于此观察,我们提出了使用度量学习来规范攻击下的表示空间,从而产生更强健的分类器。通过精心抽样度量学习实例,我们的学习表示不仅提高了鲁棒性,还可以检测先前未见过的对抗性样本。量化实验表明,相对于以前的工作,我们的方法使得鲁棒性准确度提高了 4%,检测效率提高了 6%。
Sep, 2019
本文研究了现代测量方法的 “动态范围”,旨在提供有关分数差异的集体理解,包括在测量之间以及内部分数之间的意义,即我们问对于人类来说,系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估,使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值,我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下,我们还探讨了指标差异和准确性对于更细粒度特征的影响,例如翻译方向、领域和系统接近程度。
Jan, 2024
本文通过对深度度量学习算法的客观比较研究,发现了深度度量学习算法饱和度高于文献中表明的水平,并揭示了嵌入空间密度与模型泛化性能之间的相关性,并提出了一种简单有效的训练正则化方法来提高基于排名的深度度量学习模型的性能。
Feb, 2020
通过减少方差提高准确性,我们提出了一种新的指标框架 —— 校准损失指标,以解决深度学习管道评估过程中的度量方差问题,并通过在深度点击率预测模型中的理论论证和大量实验验证支持我们的方法。
Jan, 2024
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021