Nov, 2023

子句编码器:命题语义表征的对比学习

TL;DR引入一种次句编码器,一种对文本进行细粒度语义表示的对比学习上下文嵌入模型。与对整个文本序列进行编码为固定长度向量的标准实践不同,次句编码器学习产生与文本序列中不同的原子命题(即表达在一个文本序列中的含义的原子单位)相对应的不同的上下文嵌入。次句嵌入通过对比学习来识别(推导出的)命题在不同文本序列中的语义等价性。我们的实验表明,次句编码器在应用中的有效性,例如检索细粒度文本归因的支持事实或识别文本之间的条件语义相似性。在实践中,我们证明次句编码器与句子编码器相比具有相同的推理成本和空间复杂度。