May, 2024
朝着更好的领域外泛化评估
Towards a Better Evaluation of Out-of-Domain Generalization
Duhun Hwang, Suhyun Kang, Moonjung Eo, Jimyeong Kim, Wonjong Rhee
TL;DR领域通用化的目标是设计算法和模型,能够在之前未见过的测试分布上取得高性能。本研究中,我们对平均度量进行了细致的探究,并提出了 “最差 + 间隙” 度量作为一种强健的替代方案。通过理论推导和实验分析,我们发现平均度量不能准确近似真实的领域通用化性能,而 “最差 + 间隙” 度量在理论上和实践中都表现出了鲁棒性。