Dec, 2022

使用句子编码进行文本相似度比较的零样本分类技术 TeSS

TL;DRTeSS(使用句子编码器的文本相似性比较)是一种零样本分类的框架,通过输入文本和每个候选标签提示之间的嵌入相似性来确定分配的标签。我们利用预训练期间优化定位语义相似样本在嵌入空间中更靠近彼此的句子编码器的表示。标签提示嵌入作为其对应类别集群的原型。与原始标签可能存在描述不当的情况不同,我们从外部语料库中检索语义相似的句子,并将它们与原始标签提示一起使用(TeSS-R)。TeSS 在各种闭集和开集分类数据集的零样本设置下表现出色,当与标签提示多样化通过检索结合时,进一步获得收益。这些结果对叙述者变化敏感,这是使用双编码器的一个附加好处。总之,我们的方法可作为零样本分类的可靠基线和评估句子编码器质量的简单界面。