Feb, 2016

识别大规模希伯来语 / 阿拉米语语料库中的平行段落

TL;DR提出一种高效、能够识别不完全相同的并行段落的方法,通过使用语料库中每个单词的两个最不常用的字母,找到由四到五个单词组成、相差不超过一个单词的匹配字符串对,然后识别这些匹配字符串对的聚类,该方法在约 30 秒内在数百万字的希伯来 - 阿拉姆语语料库中识别出 4600 多个并行段落,与缓慢、耗时的穷举法相比,该方法的覆盖范围基本相同。