Mar, 2023

Self-Improving-Leaderboard(SIL):呼唤以实际为中心的自然语言处理排行榜

TL;DR本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外,也应该在实际应用场景下评估模型的表现,并提出了解决当前排行榜系统存在的问题的新模式,以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。