Sep, 2021

Phrase-BERT:基于BERT的短语嵌入改进及应用于语料库探索

TL;DR本文提出了一种对BERT进行微调的方法(Phrase-BERT),使其能够生成更强大的短语嵌入,Phrase-BERT利用一个由短语描述形式多样的同义词集以及从Books3语料库中挖掘的大规模情境短语数据集生成模型,并在各种短语级相似性任务中优于基线。 此外,该文还将Phrase-BERT嵌入式与简单的自编码器相结合,构建了一种利用向量空间中最近邻搜索将主题解释为词和短语混合的短语主题模型。 众包评估表明,该短语主题模型比基线的单词和短语级主题模型产生更一致和有意义的主题,进一步验证了Phrase-BERT的效用。