Aug, 2023

利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用

TL;DR通过使用多语言知识蒸馏方法训练 BERT 模型,本研究为古希腊文本生成句子嵌入,借鉴了高资源语言的模型性质,同时使用了相对较少的翻译句子数据。通过创建一个平行语料库,将古希腊文档与英文译文进行对齐,并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。