Jul, 2024

BM25S:通过积极的稀疏打分实现数量级更快的词汇搜索

TL;DRBM25S 是一种高效的 Python 实现,通过在索引过程中计算 BM25 得分并将其存储为稀疏矩阵,相比最流行的 Python 框架提高了多达 500 倍的速度。它还相对于高度优化的基于 Java 的实现有显著的加速效果,并且通过使用一种新的得分转移方法将热衷于得分的非稀疏变量扩展到了 Kamphuis 等人在 2020 年提出的五种 BM25 变体的精确实现。