一个针对电子治理的开放领域问答系统
本文探讨了如何通过合成的问答数据来提高封闭领域检索和机器阅读理解的性能,实验结果表明将神经信息检索系统和机器阅读理解系统组合后,在 CORD-19 数据集上相比于基准开放领域问答系统,有显著的改进。
Dec, 2020
本文利用 GPT-2 语言模型,结合 tf-idf、BERT、BioBERT、USE 四种过滤方法,开发了一款自动回答有关 COVID-19 的聊天机器人,并通过医学专家评估,发现 BERT 和 BioBERT 优于 tf-idf 和 USE,以提供正确、即时、有用的健康数据。同时,还创建了一款用户友好型的互动网络应用程序。
Jun, 2020
为了解决 COVID-19 疫情期间虚假信息泛滥的问题,本文利用开放域问答技术,构建了一个能够从大规模 COVID-19 科学论文中检索答案的系统,并结合有效的重新排序和多次回答技巧。实验表明,尽管数据量较小,该系统仍然可用于训练,成为用于类似领域的快速开发的模型。
Oct, 2021
本论文介绍了 covidAsk,一个基于生物医学文本挖掘和问答技术结合起来的用于实时回答问题的问答系统,并使用 COVID-19 Questions 数据集对其进行了评估。该系统被设计来帮助研究人员寻找关于新冠病毒和未来疫情的知识和信息。
Jun, 2020
这篇论文提出了 XLMRQA 作为第一个使用监督 transformer-based reader 和基于 Wikipedia 的语料库作为知识来源的越南问题回答系统,优于基于深度神经网络模型的 DrQA 和 BERTserini,同时分析了问题类型对 QA 系统性能的影响。
Apr, 2022
在这篇论文中,我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素,其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究,通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上,我们与基于 BM25 和 DPR 的 QA 读取器模型相比,在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统,并将所有的代码、模型和数据集公开提供。
Jan, 2024
本文综述了 OpenQA 领域的最新研究趋势,重点关注采用神经 MRC 技术的系统,介绍了现代 OpenQA 体系结构 Retriever-Reader 及采用该体系结构的各种系统,讨论了开发 OpenQA 系统面临的关键挑战,并对常用的基准进行了分析。
Jan, 2021
本文针对 ARCChallenge 数据集的超越式难题提出了一种系统,该系统利用查询重写、背景知识和文本属于性,成功地提高了端到端 QA 任务的性能,并超越了几个强基线。
Sep, 2018
我们展示了一个端到端的问答系统,将 BERT 与开源的 Anserini 信息检索工具包集成。通过将信息检索最佳实践与基于 BERT 的阅读器集成,我们的系统可以以端到端的方式从大量维基百科文章中识别答案,并报告标准基准测试收集上优于先前结果的大幅改进,表明预训练的 BERT 与 SQuAD 进行微调已足以实现高准确度的识别答案跨度。
Feb, 2019
RealTime QA 是一个动态的问答平台,使用 GPT-3 等大型预训练语言模型为基础构建了强大的基线模型,并追求及时应用,研究表明 GPT-3 可根据新检索到的文档适当更新其生成结果,但当检索到的文档提供不足信息时,可能会出现过时答案。
Jul, 2022