Jun, 2024

用基于音译的后训练对齐打破多语言预训练语言模型的脚本障碍

TL;DR使用基于音译的预训练后对齐(PPA)方法,改善使用不同文字脚本的相互关联低资源目标语言与高资源源语言之间的跨语言对齐,进而在跨语言转移任务中,提高模型性能达到 50% 的改进;同时使用非英语语言作为源语言转移,可获得更大的改进。