Feb, 2024

NewsQs: 多源信息提问

TL;DR我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。