EMNLPOct, 2020

有些词比其他词更有价值吗?

TL;DR该研究提出了两种新的内部评估方法,旨在全面评估语言模型的性能。他们发现,传统的评价方法偏向于高频词汇,而不能全面地评价模型的性能。