MMSep, 2023

语义文本压缩分类

TL;DR我们研究了文本的语义压缩,其中文本中包含的含义被传达给源编码器,例如用于分类。我们提出了一种利用句子嵌入和语义失真度量来保持含义的语义量化和压缩方法。我们的结果表明,与语义不可知基线相比,所提出的语义方法在所需消息表示的比特数量方面节省大量资源,仅以非常适度的准确性损失为代价。我们比较了所提出方法的结果,并观察到语义量化所实现的资源节省可以通过语义聚类进一步增强。重要的是,我们观察到所提出方法的普适性,其在许多基准文本分类数据集上都获得了出色的结果,涵盖了多样化的环境。