Nov, 2023

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

TL;DR展示了一种利用公开的课程资料进行平行语料挖掘的框架,通过动态规划的句子对齐算法和机器翻译相似度,达到了 96% 的句子对齐 F1 分数,并通过机器翻译实验证明,挖掘到的语料能提高课程讲稿翻译的质量。