EMNLPOct, 2021

利用 Twitter 作为大语料库的来源,用于语义句子嵌入中的弱相似对

TL;DR本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型,通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集,从而训练生成的语义句子向量,不仅在经典语义文本相似度任务中表现出色,而且在非精确参数化相似句子任务上表现突出。