Dec, 2022

通过手动注释提高问答性能:成本、效益和策略

TL;DR本文介绍并公开发布了PolQA,这是第一个用于OpenQA的波兰语数据集。该数据集包含7,000个问题,87,525个手动标注的证据段落和超过7,097,322个候选段落。该资源允许我们评估不同注释选择对QA系统性能的影响,并提出一种有效的注释策略,使召回率提高了10.55 p.p. 并同时将注释成本降低了82%。