Nov, 2023

RETSim:文本相似度的韧性与高效性

TL;DR这篇论文介绍了 RETSim,一种轻量级、多语言深度学习模型,用于生成鲁棒的度量嵌入,用于近似重复文本检索、聚类和数据集去重任务。我们证明了 RETSim 在数据集去重、对抗性文本检索基准和垃圾邮件聚类任务上的鲁棒性和准确性明显优于 MinHash 和神经文本嵌入,实现了新的技术水平。我们还介绍了 W4NT3D 基准(Wiki-40B 对抗近似文本数据集),用于评估对抗性环境下多语言近似重复文本检索的能力。RETSim 和 W4NT3D 基准在 MIT 许可下开源。