高效开放域问答测量调查
该研究致力于利用结构化、非结构化和半结构化知识来源(如文本、表格、列表和知识库)进行开放域问题回答,并提出了统一的方法,将它们转化为文本并采用检索-阅读器模型,从而大大提高了在知识库问题回答任务上的表现,并将异构知识来源融合成一个简单且有效的统一知识模型,并在两个流行的问答基准测试中(自然问题和网络问题)继续提高最新的图形方法等级,分别为3.5和2.6点。
Dec, 2020
本文研究了基于密集表示的检索系统如何减少内存占用,并提出了三个方法:降维、量化和过滤。在TriviaQA和NaturalQuestions数据集上进行评估后,发现使用不到6GB的内存就能获得可以与竞品相媲美的系统。
Dec, 2020
本文综述了OpenQA领域的最新研究趋势,重点关注采用神经MRC技术的系统,介绍了现代OpenQA体系结构Retriever-Reader及采用该体系结构的各种系统,讨论了开发OpenQA系统面临的关键挑战,并对常用的基准进行了分析。
Jan, 2021
本文提出了一种用于对话式问答的多方面改进框架,通过KL散度正则化、后处理程序和课程学习策略等三个方面的改进,有效地解决了开放域问答过程中的一系列问题,并在公开数据集OR-QuAC上展现了比同类模型更好的性能表现。
Apr, 2022
研究开放领域问答(ODQA)中,当应用于广泛不同的领域时,此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境,并研究了端到端的模型性能。他们发现,不仅模型在推广方面表现出失败,且高检索分数通常也不能提供准确的答案预测。最后,研究提出并评估了多种干预方法,其提高了端到端答案F1得分,最多可达24个点。
Dec, 2022
通过研究状况下的密集通道检索(DPR)检索器和解码中的融合(FiD)阅读器的流程,我们提出和评估了强大而简单高效的基准线,通过在检索器和阅读器之间引入快速重新排列组件并执行有针对性的微调步骤,改进了现有方法的性能,并减少了阅读器的延迟60%。
Oct, 2023
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读”范式从外部语料库中检索相关文档;(2)“先生成然后阅读”范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了LLMQA,一种通用框架,将ODQA过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于LLMs展示了在各种任务中表现出的出色能力,我们在框架中指导LLMs担任多个角色,作为生成器、重新排序器和评估器,集成它们在ODQA过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导LLMs生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ和TriviaQA)上进行的大量实验结果表明,LLMQA在答案准确性和证据质量方面达到了最佳表现,展示了其推进ODQA研究和应用的潜力。
Mar, 2024
Open-domain Question Answering research investigates the generalization performance of a retrieval-augmented QA model, proposing Corpus-Invariant Tuning as an effective training strategy to mitigate knowledge over-memorization and achieve better generalizability.
Apr, 2024
本研究通过对52个数据集和20种评估技术进行综述,详细研究了当前开放域问题回答领域的现状,提出了一种包含问题类型的多模态数据集新分类法,并对评估指标进行结构化整理和批判性分析,旨在为现代问答系统的强大评估提供框架,并指出了当前的挑战和未来研究发展的有希望的方向。
Jun, 2024
本研究解决了开放域问答(ODQA)中推理效率低的问题,提出了一种新颖的句子选择方法(FastFiD),在保留关键信息的同时减少了生成答案所需的上下文长度。实验结果表明,该方法在保持模型性能的情况下,推理速度提升了2.3至5.7倍,具有显著的影响潜力。
Aug, 2024