Nov, 2023

Sinhala-English 单词嵌入对齐:向低资源语言引入数据集和基准

TL;DR利用可用的对齐技术,本研究试图对齐僧伽罗语和英语单词嵌入空间,并引入了僧伽罗语嵌入对齐的基准。此外,为了促进有监督的对齐,我们还引入了僧伽罗语 - 英语对齐数据集,作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比,我们的结果并不可比,但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。