ACLMar, 2022

以词和句相似性重新思考评估

TL;DR本文提出了 EvalRank 作为一种新的内部评估方法,它在 60 多个模型和流行数据集上进行了深入的实验,并释放了实用的评估工具包用于未来的基准测试。