TL;DR本研究介绍了一种分治算法,利用外部双语句子嵌入来找到精确的边界,将任何二次时间复杂度的句子对齐算法转化为平均时间复杂度为 O (NlogN) 的算法,并在标准 OCR 生成的数据集上将 Bleualign 基线提高了 3 个 F1 点。
Abstract
In this paper, we introduce a divide-and-conquer algorithm to improve
sentence alignment speed. We utilize external bilingual sentence embeddings to
find accurate hard delimiters for the parallel texts to be alig