Dec, 2020

大规模索引的密集低维信息检索的诅咒

TL;DR本研究旨在探究在大规模数据索引时使用密集低维表示与传统稀疏表示(如BM25)相比的效能,研究发现在连续增加索引大小时,密集表示的性能下降速度比稀疏表示快,甚至可能出现稀疏表示优于密集表示的拐点,而这一现象与表示的维度数量有密切关系,维度越低,误判(即返回不相关文件的可能性)越高。