针对土耳其语的翻译对齐句子嵌入

Nov, 2023

针对土耳其语的翻译对齐句子嵌入

Translation Aligned Sentence Embeddings for Turkish Language

Eren Unlu, Unver Ciftci

TL;DR由于在土耳其方面训练句子向量所需的高质量数据集有限，我们提出了一种训练方法和程序来开发句子向量模型，其核心思想是通过两个连续阶段对预训练的编码-解码模型进行微调，其中第一个阶段涉及将嵌入空间与翻译对齐。通过这种对齐，主模型的才能能够更好地在目标语言的句子嵌入设置中投射出来，在有限的目标语言数据集上以高准确率在短时间内进行微调。

Abstract

Due to the limited availability of high quality datasets for training sentence embeddings in turkish, we propose a training methodology an