Jun, 2023

NLP Transformer 中的双螺旋结构

TL;DR本研究提出了通过分析 NLP Transformer 中的不同信息类型的框架,并通过 Linear-and-Add 方法优化位置信息嵌入,发现位置信息具有深度分离特征,进而证明其对于 encoder 处的词性聚类和 decoder 处的下一个 token 的词性聚类具有启发意义。