Nov, 2022

评估无监督文本分类:零样本和基于相似度的方法

TL;DR本文对不同的基于相似性和零样本方法进行了系统评估,对四个文本分类数据集进行了基准测试,包括来自医疗领域的新数据集。此外,提出了新的 SimCSE 和 SBERT 基线,其中使用 SimCSE 或 SBERT 嵌入而不是简单的文本表示进一步增强了基于相似性的分类结果。在无监督文本分类方面,提出了新的基于相似性的 Lbl2TransformerVec 方法,其性能优于先前的最先进方法。我们的实验表明,大多数情况下,基于相似性的方法显着优于零样本方法。