提出了一种基于正则化函数的方法,学习高维稀疏表示,以在视觉检索中提高效率,其表现与其他基线方法相竞争,且在实际数据集中具有类似或更好的速度精度平衡。
Apr, 2020
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏-密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020
本论文提出了一种基于聚类的检索模型,通过迭代聚类过程来模拟查询,并将文档表示为多个伪查询,通过两步得分计算程序优化匹配函数,实现了高效的近似最近邻搜索,达到了最先进的结果。
May, 2021
该论文使用一个概念框架将信息检索中的代表性学习的最新进展进行了组织,包括稀疏和密集表示、无监督和学习表示等四个维度。通过分析发现,COIL和DPR、ANCE、DeepCT、DeepImpact之间的关系以及现有技术的不足之处,论文提出一种名为uniCOIL的新技术,并在MS MARCO排名数据集上取得了最先进的结果,具有可操作性。
Jun, 2021
本文通过对 SPLADE 模型的改进,在效率和效果上都有了提升,其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练,最终取得了在 BEIR 测试上最新的最优结果。
Sep, 2021
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021
研究使用稀疏语言模型替代矢量检索系统来提高推理效率,实验结果表明使用MSMARCO数据集,精确度几乎没下降,推理速度最多提高了4.3倍。
Mar, 2023
本文提出了一种新颖的表示学习框架,用于密集检索模型,框架采用多元分布作为表示,使用负多元KL散度计算相似性,在现有的最近邻算法中无缝集成,实验结果表明,较竞争的密集检索模型有显著的改进。
Apr, 2023
LADR是一种简单而有效的方法,通过利用词法检索技术来提高现有的密集检索模型的效率,同时不影响检索效果,建立了一种新的近似k最近邻技术的密集检索效率-效果Pareto边界。
Jul, 2023
文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律,并提出使用对比对数似然作为评估指标,并通过大量实验证明,在我们设置下,稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外,文章还通过流行的数据增强方法来检验缩放效果,以评估注释质量的影响,并应用缩放定律来找到在预算限制下的最佳资源分配策略,这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。
Mar, 2024