解码神经检索器的潜在空间以进行查询建议
本篇论文提出了一种使用神经机器翻译方法来直接从查询中生成关键字的检索方法,并采用基于 Trie 的修剪技术来解决目标空间为限制闭合集合的检索环境下的关键字生成问题。该方法被应用于百度商业搜索引擎作为辅助检索分支,使得收益提升 10% 以上。
Feb, 2019
本文以学习到的密集表示为基础,描述了一种紧凑而有效的模型,用于对话搜索中的低延迟段落检索。 通过将对话查询重构直接整合到密集检索模型中,我们提出了一种新方法来解决现有流程的问题。 在构建具有伪相关性标签的数据集的基础上,证明了该模型可用于会话检索和开放域问答数据集,最后通过改进的检索模型学习到的特性,支持混合检索和错误分析。
Apr, 2021
通过提出行为偏差的假设,本文提出了一种通用的编码器 - 解码器变压器框架,以聚合任意假设,进而在检索任务中实现了较大的性能提升,包括 top-$k$ 词语错误率和 Bert F1 得分。
Oct, 2020
提出使用预训练的 encoder-decoder 模型,通过 document to query generation 来进行重新排名,同时在推理时,将其分解为仅有 decoder 的语言模型以提高推理速度,实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍,并且能取得相当的效果。
Apr, 2022
本文提出了一种基于概率模型的搜索建议方法,使用新颖的分层递归编解码器架构,能够考虑任意长度的查询序列,实现上下文感知,解决数据稀疏问题,在下一个查询预测任务中优于现有上下文感知方法,并且可以用于许多其他应用。
Jul, 2015
本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架,通过联合建模主题 - 单词和文档 - 主题分布,有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
简单模型在无监督相似性任务中优于复杂深度网络的实验证据,本文提供了一种基于最佳表示空间的简单而严格的解释,介绍了一种直接的方法,使深度复发模型(DRM)在不重新训练或结构修改的情况下,达到与浅层模型同等或更优的表现。
May, 2018
本研究探讨了基于伪相关反馈的多重嵌入密集检索方法的潜力。通过从第一遍密集检索中确定的伪相关文件集中提取代表性反馈嵌入,然后将其添加到查询表示中,证明了这些附加反馈嵌入不仅能够提高重新排序的有效性,还能提高附加密集检索操作的效率。
Jun, 2021