神经信息检索中的词汇匹配研究
本文研究将深度神经网络模型与词汇模型相结合应用于搜索引擎的检索阶段,并在 TREC 数据集上进行了实证研究,结果表明该方法得到了很好的效果,并揭示了语义方法、词汇方法以及二者结合的不同特点。
Oct, 2020
通过训练深度学习模型,使用顾客行为数据,我们开发了一种新的损失函数,并结合 n-gram 和平均池化来捕捉短程语言模式,并使用哈希来处理词汇表外的标记,从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中,均表现出比基线语意搜索方法更好的召回率和平均准确率。
Jul, 2019
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
评估科学语言模型在处理短查询文本和文本邻居时的能力,并通过小扰动生成的文本邻居证明不是所有扰动都会导致嵌入空间中的接近邻居。此外,研究发现检索性能更受文本表面形式的影响,而不是文本的语义。
Mar, 2022
本文介绍了一个多任务学习的神经检索模型,该模型在少样本、领域内外多种问题下表现良好,能够有效地检索到相关上下文信息,并且在多个基准测试中实现了与或优于目前的最新技术结果。
Jan, 2021
本文介绍了 COIL,一种基于上下文的精确匹配检索架构,利用上下文表示来评分,以实现语义的词汇匹配。 COIL 在实验结果中表现优于经典的词汇检索器和最先进的深度 LM 检索器,具有相似或更小的延迟。
Apr, 2021
本研究旨在提高神经检索器在生物医学领域中的表现,提出了模板问题生成方法、两个新的预训练任务以及多维语境表示(Poly-DPR)技术,并通过 BioASQ 挑战实验证明该方法在小语料库方面超越目前的神经方法和 BM25。
Jan, 2022
该论文提出了一个连接的系统,包括三个同构神经语义匹配模型,用于联合进行文献检索、句子选择和索证,以进行事实提取和验证。实验结果表明,该神经语义匹配方法在所有证据检索指标上都显著超越了常见的 TF-IDF 和编码器模型,并通过提供内部语义关联得分和词汇网特征等方法,改进了 NLI 模型的性能,从而在 FEVER 测试集上取得了最优结果。
Nov, 2018
该研究使用一种名为 ABNIRML 的新框架进行分析,进一步探讨了预训练上下文化语言模型在信息检索中的有效性及其潜在的偏差和限制,证明了最近的神经排序模型有与之前排序模型本质的不同特征,并可能受到单词和句子顺序、语态和其他文档变量的影响。
Nov, 2020