问答中用于 top-k 文档检索的增强向量
我们在临床领域中通过对现有 DPR 框架的改进,从可靠的 Pubmed 文章中检索答案,使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。
Aug, 2023
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法,为终端 QA 系统的最新性能奠定了基础。
Apr, 2020
本文研究了基于密集表示的检索系统如何减少内存占用,并提出了三个方法:降维、量化和过滤。在 TriviaQA 和 NaturalQuestions 数据集上进行评估后,发现使用不到 6GB 的内存就能获得可以与竞品相媲美的系统。
Dec, 2020
本文利用局部敏感哈希树 LSH Forest 实现了基于向量表示的答案检索,并探讨了使用候选项选择方法时,这种方法的优越性。在 Ubuntu 语料库和荷兰的客户服务聊天数据集上进行的实验结果表明,检索式方法优于生成式方法,并揭示了未来研究方向。
Oct, 2017
本文提出一种基于向量特征表示的问题回答方法,使用弱监督资源训练,并结合了优化过的随机梯度下降和微调步骤,实现了在基于弱标注数据下,对知识库回答表现的显著提升。
Apr, 2014
我们在这篇论文中关注减小问题回答系统所需的提示上下文的大小和提高其质量的方法。我们通过使用嵌入向量的距离,提出并评估了几种识别离群点的方法,该嵌入向量是从向量数据库中检索得到的,以及与质心和查询向量的距离有关的特征。通过比较检索到的大型语言模型回答与使用 OpenAI GPT-4o 模型获得的基本答案的相似性进行评估,发现随着问题和答案的复杂性增加,取得了最大的改进。
Jul, 2024
提供一种使用词向量嵌入表示整个文档的有效方法,通过将文档和查询表示为单词向量集,使用单词集中每个单词对之间的相似性来计算标准相似性度量,提高 TREC 自适应数据集中的平均精确度。
Jun, 2016
本文针对词嵌入模型在信息检索任务中存在的问题及其局限性,提出了一种基于 word2vec Skip-Gram 模型的神经网络模型,通过显式向量表示的方式,增加了模型的可解释性和准确性,实现了查询词汇的局部信息融合,提高了指定任务状态下的表现表现。
Jul, 2017
研究使用生成模型在开放领域问答中的表现,发现利用文本段落检索可以显著提高性能,证明生成模型擅长聚合和组合多个段落的证据,同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。
Jul, 2020