Sep, 2021

消除多语言表示中的自我语言偏差的简单有效方法

TL;DR采用几何代数和语义空间的新角度,提出 “语言信息移除” 方法,通过从多语种表示中分离语言身份信息,进一步研究语言无关和语义 - 语言信息分离的问题。该方法简单而高效,只使用简单的线性运算,并在多语种嵌入空间的弱对齐模型上实现了近乎 100%的显着性能提高。在 Amazon Reviews 和 XEVAL 数据集上进一步验证,显示该方法能够提高跨语言转移性能。