本论文提出了一种名为 UnifieR 的学习框架,它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中,并在多个基准测试中验证了其有效性和可转移性。
May, 2022
研究使用稀疏语言模型替代矢量检索系统来提高推理效率,实验结果表明使用 MSMARCO 数据集,精确度几乎没下降,推理速度最多提高了 4.3 倍。
Mar, 2023
本文探讨了基于预训练语言模型的致密检索方法,并提供了在低资源情境下实现致密检索的主流技术概览,根据技术需要的资源将其分为文档、文档和问题,以及文档和问题答案对三个类别,并对每个技术的算法、开放问题和优缺点进行了介绍和总结,最后提出了未来研究的方向。
Aug, 2022
本文通过第一次全面细致的研究,发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型,从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。
Apr, 2022
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020
本文对基于预训练语言模型的文本生成方法进行了综述,包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本;同时讨论了应用与存在挑战,总结了有用资源和应用举例,并提出了未来研究方向。
Jan, 2022
本文研究表明,使用大量参数的深度学习模型可用于启用高级神经密集检索系统有效地运行于相对廉价的硬件上,特别适用于云服务中支持大量个性化对话系统以及其各自的文本语料库。
该研究提出了一种利用密集检索模型从包含数百万个响应的大型语料库或甚至仅由未配对句子组成的非平行语料库中直接选择适当响应的解决方案,并通过一系列专门设计的学习策略实现其在全范围评估设置下的优越性。
Oct, 2021
本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展,该框架试图将稠密和稀疏检索方法整合起来,并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数,将查询和文档映射到表征空间,并计算查询 - 文档分数,同时分析了密集与稀疏表征和监督与无监督方法的影响。最后,作者提供了一个研究路线图,使得该框架更加清晰且提供未来工作的方向。
通过研究密集短语检索系统,探讨短语检索是否可以作为粗粒度检索(如段落和文档)的基础,并提出了短语过滤和矢量量化等方法,可以将检索索引的大小减小至原来的 4-10 倍,从而使得密集短语检索成为多粒度检索的实用解决方案。
Sep, 2021