Oct, 2023

关于为何费心于几何?论变压器嵌入式的线性分解的相关性

TL;DR通过两种嵌入分解方法,研究机器翻译解码器的表示,结果表明分解导出的指标与模型性能有效相关,但不同运行之间的变化暗示了对这个问题更微妙的看法,测量结果的高变异性表明几何更多地反映模型特定的特征而不是句子特定的计算,并且类似的训练条件不能保证相似的向量空间。