Dec, 2023

PCoQA:波斯语会话问答数据集

TL;DR通过引入PCoQA数据集,本研究旨在为会话式问答研究提供第一个波斯语会话式问答数据集,包含多达9,026个背景驱动的问题,涉及提问者、回答者和维基百科文档。该数据集对以往问答数据集提供了新的挑战,包括更多开放性非事实性答案、较长答案和更少的词汇重复。本文还介绍了多种基准模型的性能,包括基线模型和预训练模型,并使用预训练模型提升了性能。有关数据集和基准模型可在我们的Github页面上获取。