问答中用于 top-k 文档检索的增强向量

Oct, 2022

问答中用于 top-k 文档检索的增强向量

Enhanced vectors for top-k document retrieval in Question Answering

Mohammed Hammad

TL;DR提出一种新的文档检索方法，通过赋予每个文档一个唯一标识符和使用密集矢量进行索引，以实现高效准确地检索问题答案所需的证据文档，适用于对话聊天机器人等情景。

Abstract

Modern day applications, especially information retrieval webapps that involve "search" as their use cases are gradually moving towards "answering" modules. Conversational chatbots which have been proved to be more engaging to users, use →

question answering document retrieval vector indexing conversation chatbots information retrieval webapps

发现论文，激发创造

生物医学问答中的前 K 个相关片段检索

我们在临床领域中通过对现有 DPR 框架的改进，从可靠的 Pubmed 文章中检索答案，使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。

Aug, 2023

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

开放域问答的高效内存基线

本文研究了基于密集表示的检索系统如何减少内存占用，并提出了三个方法：降维、量化和过滤。在 TriviaQA 和 NaturalQuestions 数据集上进行评估后，发现使用不到 6GB 的内存就能获得可以与竞品相媲美的系统。

Dec, 2020

基于话语和上下文嵌入的检索式对话系统

本文利用局部敏感哈希树 LSH Forest 实现了基于向量表示的答案检索，并探讨了使用候选项选择方法时，这种方法的优越性。在 Ubuntu 语料库和荷兰的客户服务聊天数据集上进行的实验结果表明，检索式方法优于生成式方法，并揭示了未来研究方向。

Oct, 2017

基于弱监督嵌入模型的开放式问答

本文提出一种基于向量特征表示的问题回答方法，使用弱监督资源训练，并结合了优化过的随机梯度下降和微调步骤，实现了在基于弱标注数据下，对知识库回答表现的显著提升。

Apr, 2014

优化检索增强生成环境中的异常检测

我们在这篇论文中关注减小问题回答系统所需的提示上下文的大小和提高其质量的方法。我们通过使用嵌入向量的距离，提出并评估了几种识别离群点的方法，该嵌入向量是从向量数据库中检索得到的，以及与质心和查询向量的距离有关的特征。通过比较检索到的大型语言模型回答与使用 OpenAI GPT-4o 模型获得的基本答案的相似性进行评估，发现随着问题和答案的复杂性增加，取得了最大的改进。

Jul, 2024

将文档和查询表示为嵌入词向量集以进行信息检索

提供一种使用词向量嵌入表示整个文档的有效方法，通过将文档和查询表示为单词向量集，使用单词集中每个单词对之间的相似性来计算标准相似性度量，提高 TREC 自适应数据集中的平均精确度。

Jun, 2016

将相关文档纳入 word2vec 中

本文针对词嵌入模型在信息检索任务中存在的问题及其局限性，提出了一种基于 word2vec Skip-Gram 模型的神经网络模型，通过显式向量表示的方式，增加了模型的可解释性和准确性，实现了查询词汇的局部信息融合，提高了指定任务状态下的表现表现。

Jul, 2017

利用生成模型结合段落检索进行开放域问答

研究使用生成模型在开放领域问答中的表现，发现利用文本段落检索可以显著提高性能，证明生成模型擅长聚合和组合多个段落的证据，同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。

Jul, 2020

开放域问答中的答案重新排序的证据聚合

本文提出了两种新的模型，在公开领域问答数据集中取得了最具竞争力的结果。这两种方法是使用多篇文章生成答案。

Nov, 2017