ACLMay, 2020

我们需要谈论随机分割

TL;DR研究指出,NLP 领域的实验应当使用多重的、独立的测试集进行评估,以获得更真实的性能评估;当不可能使用多个测试集时,使用多个有偏差的划分方式可得到更接近真实的性能评估。