Sep, 2023

Transformer的结构自监督目标

TL;DR本文重点研究如何通过使用无监督原始数据来改善自然语言模型的预训练,使其更高效并与下游应用相匹配。在第一部分中,我们介绍了三种替代BERT的Masked Language Modeling(MLM)的预训练目标,分别为Random Token Substitution(RTS)、Cluster-based Random Token Substitution(C-RTS)和Swapped Language Modeling(SLM)。第二部分中,我们提出了与下游应用结构对齐的自监督预训练任务,减少了对标记数据的需求,并展示了在Fact Verification、Answer Sentence Selection和Summarization等任务上的显著性能提升。