Nov, 2023

PELMS:面向高效低样本多文档摘要的预训练

TL;DR我们研究了用于抽象多文档摘要的预训练技术,提出了一种名为PELMS的预训练模型,使用基于语义连贯性和忠实度约束的目标函数,在无标签的多文档输入上促进简洁、流畅和忠实的摘要生成。通过对超过9300万个文档组成的300多万个无标签主题中心文档群集进行训练,编制了一个名为MultiPT的多文档预训练语料库,涵盖产品评论、新闻和常识等多种流派。在多个低样本设置下,我们对PELMS进行了广泛的评估,发现我们的方法在整体信息性、抽象性、连贯性和忠实度方面始终优于竞争对手的比较。