Jan, 2022

分治法提高句子对齐精度

TL;DR本研究介绍了一种分治算法,利用外部双语句子嵌入来找到精确的边界,将任何二次时间复杂度的句子对齐算法转化为平均时间复杂度为 O (NlogN) 的算法,并在标准 OCR 生成的数据集上将 Bleualign 基线提高了 3 个 F1 点。