Jul, 2024

VRSD: 大型语言模型检索中相似性和多样性的再思考

TL;DR在大型语言模型(LLM)的语义查询中,矢量检索算法对于同时满足相似性和多样性的条件具有重要意义。本文通过总和矢量与查询矢量之间的关系,引入了一种新的方法来表征相似性和多样性在检索过程中的约束。此外,我们还提出了一种新的组合优化挑战,从一组候选矢量中选择k个矢量,使其总和矢量与查询矢量最大程度地对齐,这是一个NP完全问题,从而奠定了在矢量检索中同时追求相似性和多样性的深远困难,并为进一步的研究奠定了理论基础。此外,我们提出了启发式算法Vectors Retrieval with Similarity and Diversity (VRSD),它不仅具有明确的优化目标,避免了预设参数的需求,还较MMR在时间复杂度上实现了适度的降低,经验验证进一步证实VRSD在各种数据集上明显优于MMR。