ACLMar, 2021

文档连贯性建模评估

TL;DR在理解预训练语言模型对话建模能力方面,我们提出了一种句子入侵检测任务,并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD,显示预训练 LM 在域内评估中表现出色,但在跨域设置中经验了大幅下降,表明其对跨域推广的能力有限。进一步的,在一个新的语言探测数据集上的结果表明,在跨域设置中有很大的改进空间。