May, 2023

通过 L2 范数打折解决高频词余弦相似度低估问题

TL;DR本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。