Jul, 2022
通过综合评估和排行榜了解长文档排名模型的性能
Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
Leonid Boytsov, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang...
TL;DR本研究综合评估了 13 个模型在排名长文档方面的功能,包括两种专用 Transformer 模型,同时分析了训练和比较这些模型的几个困难。结果表明,虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试,但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时,Simple FirstP Baseline 很有效。