May, 2024

朝着更好的领域外泛化评估

TL;DR领域通用化的目标是设计算法和模型,能够在之前未见过的测试分布上取得高性能。本研究中,我们对平均度量进行了细致的探究,并提出了“最差+间隙”度量作为一种强健的替代方案。通过理论推导和实验分析,我们发现平均度量不能准确近似真实的领域通用化性能,而“最差+间隙”度量在理论上和实践中都表现出了鲁棒性。