May, 2023
通过 L2 范数打折解决高频词余弦相似度低估问题
Solving Cosine Similarity Underestimation between High Frequency Words by L2 Norm Discounting
Saeth Wannasuphoprasit, Yi Zhou, Danushka Bollegala
TL;DR本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。