COUGH: 用于 COVID-19 常见问题解答检索的挑战数据集和模型

EMNLPOct, 2020

COUGH: 用于 COVID-19 常见问题解答检索的挑战数据集和模型

COUGH: A Challenge Dataset and Models for COVID-19 FAQ Retrieval

PDF

Xinliang Frederick Zhang, Heming Sun, Xiang Yue, Simon Lin, Huan Sun

TL;DR介绍了一个具有挑战性的大型 COVID-19 FAQ 检索数据集 COUGH，包括 FAQ Bank、Query Bank 和 Relevance Set，其中最佳模型在 P@5 下达到了 48.8，激励了更多的研究。

Abstract

We present a large, challenging dataset, COUGH, for covid-19 faq retrieval. Similar to a standard FAQ →

covid-19 dataset faq retrieval bm25 bert

发现论文，激发创造

快速为 COVID-19 引导一个问答数据集

构建一个问题回答数据集，用於评估基於 COVID-19 相关主题的各种基线模型的转移能力和效果。該数据集包括 124 个问题 - 文章对，但不足以进行监督的机器学习。

Apr, 2020

COVID-19 问题分类数据集

COVID-Q 是一个包含 1690 个与 COVID-19 有关的问题的数据集，其中包含了来自 13 个来源的问题，并将它们分成了 15 个问题类别和 207 个问题簇。该数据集可以帮助开发相关系统或作为模型评估的领域特定的资源。

May, 2020

CO-Search：基于语义搜索、问答和摘要生成的 COVID-19 信息检索

本文介绍了 CO-Search，这是一款检索 - 排序语义搜索引擎，设计用于处理 COVID-19 相关文献，包括使用 Siamese-BERT 编码器、BM25 矢量化器和多跳问答模块等，以高效地帮助寻找科学答案，并在多项指标上获得了最佳表现。

Jun, 2020

COUGHVID 众包数据集：用于研究大规模咳嗽分析算法的语料库

该研究通过其公开的咳嗽检测算法筛选了 COUGHVID 数据集中的 2000 多个记录，然后经验丰富的肺科医生对这些记录进行了诊断，为解决全球最紧急的健康危机提供了用于训练机器学习模型的咳嗽录音数据。

Sep, 2020

UIT-ViCoV19QA: 一份越南语 COVID-19 社区问答数据集

Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.

Sep, 2022

使用查询 - 问题相似度和基于 BERT 的查询 - 答案相关性进行 FAQ 检索

提出了一种基于未监督信息检索和 BERT 模型的 FAQ 检索系统，用于回答用户的查询，该系统通过计算用户问题和问题之间的相似度以及问题和答案之间的相关性来检索数据。该系统在两个数据集评估中表现出了优异的性能表现。

May, 2019

COV19IR：COVID-19 领域文献信息检索

本研究通过使用 Transformer 神经网络，在 CORD-19 数据集上解决了 COVID-19 文献检索和问答的挑战，并展示了其在一些实例上的有效性。

Nov, 2022

利用文本挖掘技术进行 COVID-19 文献挖掘和检索

使用 NLP 技术，如词袋、平均词向量、平均 BERT 基础模型和 Tf-Idf 加权词向量模型，结合余弦相似度算法，在 CORD-19 数据集中找出与 COVID-19 主题有关的研究文献。

May, 2022

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

CAiRE-COVID: 用于 COVID-19 学术信息管理的问答和查询为中心的多文档摘要系统

CAiRE-COVID 是一个实时的问题回答和多文档摘要系统，它通过结合信息提取、最新的问答和面向查询的多文档摘要技术来选择和突出查询中的证据片段，以回答与 COVID-19 相关的高优先级问题，并总结突出的问题相关信息。

May, 2020