Jan, 2022
面向可扩展嵌入式检索的逐步优化的双粒度文档表示
Progressively Optimized Bi-Granular Document Representation for Scalable
Embedding Based Retrieval
TL;DR通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和ANN搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和CTR这些度量方面的提升。