ACLMar, 2021

长格式问答进展的障碍

TL;DR该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。