Jun, 2023

FPDM: 使用文档级元数据的领域特定快速预训练技术

TL;DR本研究提出了一种名为 FPDM 的快速预训练技术框架,利用文档元数据和特定领域的分类体系作为监督信号,以此来预先训练领域特定语料库上的变形金刚编码器,其中在域特定预训练期间,通过使用句子级嵌入作为输入来连续预先训练开放域编码器(以适应长文档),然而,将使用令牌级嵌入作为这种编码器的输入来进行微调。