Feb, 2024

通过将标记映射到共享字符空间训练双语语言模型

TL;DR使用音译的阿拉伯文本的双语阿拉伯 - 希伯来语言模型来确保两种语言在同一书写系统中得到表达,评估了在需要跨语言知识的机器翻译中,同时使用统一书写系统的语言模型的性能,结果表明我们的模型超过了保留阿拉伯文本在阿拉伯文字中的对照模型,证明了音译步骤的有效性。尽管我们的模型在训练数据集大小约为其他现有语言模型的 60%,但在机器翻译方向上提供了可比性的性能。