Jul, 2017

使用潜在语义索引实现双语文档对齐

TL;DR本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵,提取出文档的重要特征,通过将两种余弦相似度变量与 URL 相似度量的结合,可以达到高精度的 Web 页面对齐。