EMNLPOct, 2021
利用 Twitter 作为大语料库的来源,用于语义句子嵌入中的弱相似对
Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings
Marco Di Giovanni, Marco Brambilla
TL;DR本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型,通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集,从而训练生成的语义句子向量,不仅在经典语义文本相似度任务中表现出色,而且在非精确参数化相似句子任务上表现突出。