Apr, 2023

Shuffle & Divide: 长文本对比学习

TL;DR本文提出了一种基于对比学习的长文本文档自监督学习方法,其中关键是 Shuffle and Divide(SaD),一种简单的文本增强算法,用于对 BERT 文档嵌入进行对比更新所需的预文本任务。通过对 20 Newsgroups、Reuters-21578、BBC 和 BBCSport 数据集进行无监督文本分类的实证评估,我们的方法在准确性方面取得了最高的性能表现。