COVID-19 和其他新兴领域的开放领域问答

EMNLPOct, 2021

COVID-19 和其他新兴领域的开放领域问答

Open-Domain Question-Answering for COVID-19 and Other Emergent Domains

Sharon Levy, Kevin Mo, Wenhan Xiong, William Yang Wang

TL;DR为了解决 COVID-19 疫情期间虚假信息泛滥的问题，本文利用开放域问答技术，构建了一个能够从大规模 COVID-19 科学论文中检索答案的系统，并结合有效的重新排序和多次回答技巧。实验表明，尽管数据量较小，该系统仍然可用于训练，成为用于类似领域的快速开发的模型。

Abstract

Since late 2019, covid-19 has quickly emerged as the newest biomedical domain, resulting in a surge of new information. As with other emergent domains, the discussion surrounding the topic has been rapidly changing, leading to the spread of →

covid-19 open-domain question-answering misinformation scientific papers re-ranking

发现论文，激发创造

应对新兴领域开放检索式问答系统中的跨语言性问题

本文提出了一种跨语言的开放检索问答系统，使用科学文章语料库保证检索到的文档的可靠性；通过利用自动翻译、对齐和过滤来产生英文 - 全语言数据集，缓解新兴语境下跨语言训练数据的稀缺性。结果表明，在使用我们的英文 - 全语言数据进行训练后，深度语义检索器在跨语言设置中明显优于 BM25 基线。

Jan, 2022

实时回答 COVID-19 问题

本论文介绍了 covidAsk，一个基于生物医学文本挖掘和问答技术结合起来的用于实时回答问题的问答系统，并使用 COVID-19 Questions 数据集对其进行了评估。该系统被设计来帮助研究人员寻找关于新冠病毒和未来疫情的知识和信息。

Jun, 2020

COV19IR：COVID-19 领域文献信息检索

本研究通过使用 Transformer 神经网络，在 CORD-19 数据集上解决了 COVID-19 文献检索和问答的挑战，并展示了其在一些实例上的有效性。

Nov, 2022

一个针对电子治理的开放领域问答系统

研究提出了一个基于 BERT 模型的开放式罗马尼亚问答系统，用于回答与 COVID-19 相关的问题，并介绍了其与罗马尼亚语言技术门户网站 RELATE 的整合、COVID-19 数据集和不同的 QA 性能评估。

Jun, 2022

COVID-19 端到端问答：通过合成训练实现领域自适应

本文探讨了如何通过合成的问答数据来提高封闭领域检索和机器阅读理解的性能，实验结果表明将神经信息检索系统和机器阅读理解系统组合后，在 CORD-19 数据集上相比于基准开放领域问答系统，有显著的改进。

Dec, 2020

COVID-19 自动问答任务的语言模型质量评估

本文利用 GPT-2 语言模型，结合 tf-idf、BERT、BioBERT、USE 四种过滤方法，开发了一款自动回答有关 COVID-19 的聊天机器人，并通过医学专家评估，发现 BERT 和 BioBERT 优于 tf-idf 和 USE，以提供正确、即时、有用的健康数据。同时，还创建了一款用户友好型的互动网络应用程序。

Jun, 2020

COVID-19 最初是在哪里发现的？为流行病情境设计问答系统

本研究采用现代自然语言处理技术设计了一个基于问题回答系统，以应对 COVID-19 大规模信息泛滥和不实传言。我们依据 Ingwersen 的信息检索认知模型，从社会技术角度推导并转化成具体的设计要求和设计原则，并以 CORD-19 数据集为基础构建了一个样机系统。我们根据生物医学专家标记的 COVID-19 问题样本，评估了系统的答案质量，证明了其有用性。

Apr, 2022

有效的迁移学习方法用于相似问题鉴定：用户问题匹配 COVID-19 常见问题解答

利用预训练神经网络上的双重微调方法，先使用医疗问答对进行预训练，然后使用医学问答对进行微调，以确定医学问题的相似性，特别适用于 COVID-19 相关问答系统匹配用户问题。

Aug, 2020

快速为 COVID-19 引导一个问答数据集

构建一个问题回答数据集，用於评估基於 COVID-19 相关主题的各种基线模型的转移能力和效果。該数据集包括 124 个问题 - 文章对，但不足以进行监督的机器学习。

Apr, 2020

使用维基百科回答开放领域问题

本文提出使用维基百科作为唯一知识源来解决开放领域问题回答，提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法，同时现有数据集的实验结果表明，这两个模块都是高度竞争力的，并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。

Mar, 2017