Jul, 2024

提升成语翻译的LLM能力

TL;DR通过改进大型语言模型对惯用语的处理,我们旨在提高翻译的准确性,同时保留原有的语言风格,以确保翻译文本保持意图和情感共鸣,促进跨文化交流。具有显著的社会影响力。通过扩展现有的知识库,我们使用两种方法进行翻译:第一种方法使用SentenceTransformers模型,在原语言和目标语言习语的含义之间生成余弦相似度分数,选择最佳习语;第二种方法利用大型语言模型,在目标语言中找到对应的习语进行翻译。通过英汉、汉英的人工评估,余弦相似度查找方法在所有GPT4o翻译中均表现优于其他方法。此外,我们还通过开发一种低资源的乌尔都数据集,包含乌尔都语的习语及其翻译,进一步扩充了知识库,展示了余弦相似度查找方法在消除语言障碍、探索中文和乌尔都的多样文学作品方面的潜力。