Jul, 2022

通过综合评估和排行榜了解长文档排名模型的性能

TL;DR本研究综合评估了 13 个模型在排名长文档方面的功能,包括两种专用 Transformer 模型,同时分析了训练和比较这些模型的几个困难。结果表明,虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试,但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时,Simple FirstP Baseline 很有效。