Dec, 2022

词嵌入的范数编码信息获取

TL;DR本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词相关信息量的一种度量方式,但需适当修正由单词频率造成的偏差。