Nov, 2024

齐夫白化

TL;DR本研究解决了神经网络模型中词嵌入空间偏斜的问题,传统的模型常假设词频均匀分布,而实际词频符合齐夫法则。我们提出通过按照实际词频进行PCA白化来显著提升任务性能,超越了已有基线,并强调低频词的重要性,这一发现对自然语言处理方法的有效性提供了理论支持。