Jun, 2024

多语种去重策略:应用可扩展相似度搜索与单语和多语嵌入模型

TL;DR本文介绍了使用先进的 NLP 工具对多语种文本数据进行去重的方法。我们比较了一个包括翻译为英文后嵌入 mpnet 的两步方法和一个多语种嵌入模型 (distiluse)。两步方法在 F1 得分方面表现更好 (82% vs. 60%),特别是在较少使用的语言上,可以通过利用基于领域知识的专家规则将其提高至 89%。我们还强调了与标记长度限制和计算效率相关的局限性。我们的方法对未来的多语种去重任务提出了改进建议。