COLINGMar, 2024

探索和标准化四种写作系统,提升福建双语翻译

TL;DR本研究旨在填补机器翻译对台湾闽南语等低资源语言的相对忽视之处,通过开发台湾闽南语与繁体中文及英文的双向翻译模型,并利用预训练的 LLaMA2-7B 模型,综合实验跨越台湾闽南语的不同书写系统以及与其他高资源语言之间的翻译任务,最终大大提升了模型的翻译能力,并通过标准化所有台湾闽南语书写系统为福建汉字,进一步提高了性能;另外,引入反向翻译和 GPT-4 结合的评估方法,确保了对低资源语言的可靠翻译质量评估;此研究有助于缩小台湾闽南语的资源差距,并从实证角度研究了基于 LLaMA 2 的预训练和微调的优势和局限性。