May, 2022

对于高频词嵌入相似度度量中余弦相似度的问题

TL;DR使用余弦相似度可对于NLP的任务(如问答,信息检索,机器翻译)进行上下文嵌入建模,但是我们发现使用BERT解析的余弦相似度在估算词语相似度方面存在高低频词的差异,在控制多义性和其他因素后,高频词与同一词语的其他实例或其他上下文中的其他词语的相似度被低估,这种低估是由于高低频词的代表性几何形状差异导致.