Apr, 2023

WebBrain:基于大型网页语料库学习生成与查询相关的事实正确文章

TL;DR本文介绍了一个新的自然语言处理任务 —— 通过从 Web 中挖掘支持性证据,生成具有引用文献的短实证文章。为此,我们构建了一个大规模数据集,通过从英文维基百科文章及其可爬行的维基百科参考文献中提取而来。我们实验了当前最先进的 NLP 技术在 WebBrain 上的效果,并引入了一个新的框架 ReGen,它通过改进证据检索和任务特定的预训练来增强生成的实证性。实验结果表明,ReGen 在自动和人工评估中都优于所有基线。