Nov, 2023

针对土耳其语的翻译对齐句子嵌入

TL;DR由于在土耳其方面训练句子向量所需的高质量数据集有限,我们提出了一种训练方法和程序来开发句子向量模型,其核心思想是通过两个连续阶段对预训练的编码-解码模型进行微调,其中第一个阶段涉及将嵌入空间与翻译对齐。通过这种对齐,主模型的才能能够更好地在目标语言的句子嵌入设置中投射出来,在有限的目标语言数据集上以高准确率在短时间内进行微调。