May, 2023

SEAHORSE:一份用于摘要评估的多语言、多方面数据集

TL;DR本篇论文介绍了一个名为SEAHORSE的多语言,多方面的汇总评估数据集,其中包含了96K个人工评分,覆盖6种语言,9种系统和4个数据集。同时,该数据集的规模和范围还可以作为评估学习指标和训练指标的大规模资源。研究者证明,通过使用SEAHORSE训练出的指标可以在跨域流行的元评估基准中获得良好的性能。