Dec, 2021

生成和评估语言的双重排行榜

TL;DR提出了一种新的比较模型,即Bidimensional Leaderboards,这种模型同时跟踪语言生成模型的进展和评价指标,通过人类评价,对评价指标进行排名和选择,以模型和评价指标为竞争方,最后得出一个集成评价指标。