BriefGPT.xyz
May, 2023
MAUPQA:大规模自动生成的波兰问答数据集
MAUPQA: Massive Automatically-created Polish Question Answering Dataset
HTML
PDF
Piotr Rybak
TL;DR
本文探讨了自动收集弱标签数据集的方法,并展示了它们对神经检索模型的性能的影响。通过本文,我们发布了 MAUPQA 数据集,其中包含接近 400,000 个波兰语问题-段落对,以及 HerBERT-QA 神经检索器。
Abstract
Recently,
open-domain question answering systems
have begun to rely heavily on
annotated datasets
to train
neural passage retrievers
. Howe
→