ACLFeb, 2017

使用单词嵌入进行跨语言抄袭检测

TL;DR本文提出使用分布式单词表示(word embeddings)来进行跨语言文本相似度检测,并通过组合不同的方法来验证它们的补充性,最终在非常具有挑战性的语料库上,在块级别下实现了英法相似度检测的总体 F1 得分 89.15%(在句级别下为 88.5%)。