Feb, 2022

最佳系统是什么?自然语言处理基准测试的新视角

TL;DR该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。