ACLJul, 2023

英语隐含语篇关系分类的 Transformer 之间的并排比较

TL;DR基于 PDTB-3 数据集,通过对七个预训练语言模型的直接性能比较,我们的模型搜索将 SOTA 提高到了 0.671 的准确率,同时得到了一些新的观察结果,其中包括相对于之前的报道(Shi 和 Demberg, 2019b),句子级预训练目标(NSP,SBO,SOP)通常无法产生最佳性能的模型。反直觉的是,具有类似规模的 MLM 和全关注机制的 PLM 表现更好。