BriefGPT.xyz
Nov, 2023
针对土耳其语的翻译对齐句子嵌入
Translation Aligned Sentence Embeddings for Turkish Language
HTML
PDF
Eren Unlu, Unver Ciftci
TL;DR
由于在土耳其方面训练句子向量所需的高质量数据集有限,我们提出了一种训练方法和程序来开发句子向量模型,其核心思想是通过两个连续阶段对预训练的编码-解码模型进行微调,其中第一个阶段涉及将嵌入空间与翻译对齐。通过这种对齐,主模型的才能能够更好地在目标语言的句子嵌入设置中投射出来,在有限的目标语言数据集上以高准确率在短时间内进行微调。
Abstract
Due to the limited availability of high quality datasets for training
sentence embeddings
in
turkish
, we propose a
training methodology
an
→