EMNLPSep, 2021

Phrase-BERT:基于 BERT 的短语嵌入改进及应用于语料库探索

TL;DR本文提出了一种对 BERT 进行微调的方法(Phrase-BERT),使其能够生成更强大的短语嵌入,Phrase-BERT 利用一个由短语描述形式多样的同义词集以及从 Books3 语料库中挖掘的大规模情境短语数据集生成模型,并在各种短语级相似性任务中优于基线。 此外,该文还将 Phrase-BERT 嵌入式与简单的自编码器相结合,构建了一种利用向量空间中最近邻搜索将主题解释为词和短语混合的短语主题模型。 众包评估表明,该短语主题模型比基线的单词和短语级主题模型产生更一致和有意义的主题,进一步验证了 Phrase-BERT 的效用。