Feb, 2023
腾讯的基于二进制编码的检索
Binary Embedding-based Retrieval at Tencent
Yukang Gan, Yixiao Ge, Chang Zhou, Shupeng Su, Zhouchuan Xu...
TL;DR提出了一种基于二进制嵌入的检索引擎,利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合,并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验,证明了该方法的效率和有效性,在几乎不损失系统准确性的情况下,显著节省了 30%~50% 的索引成本。