使用 BERT 和 GPT-2 进行 COVID-19 医疗研究文章的自动文本摘要

Jun, 2020

使用 BERT 和 GPT-2 进行 COVID-19 医疗研究文章的自动文本摘要

Automatic Text Summarization of COVID-19 Medical Research Articles using BERT and GPT-2

Virapat Kieuvongngam, Bowen Tan, Yiming Niu

TL;DR我们利用预先训练的 NLP 模型 BERT 和 OpenAI GPT-2，通过对 COVID-19 开放研究数据集中的文本进行摘要来解决研究人员与快速增长出版物之间的差距，我们的模型提供了基于原始文章提取的关键词的抽象和综合信息，我们的工作可以帮助医学界通过提供简要摘要来处理那些摘要尚不可用的文章。

Abstract

With the covid-19 pandemic, there is a growing urgency for medical community to keep up with the accelerating growth in the new coronavirus-related literature. As a result, the covid-19 →

covid-19 open research dataset challenge machine learning pre-trained nlp models text summarization

发现论文，激发创造

Continual BERT: COVID-19 文献自适应抽取式摘要的持续学习

为了帮助科学界更好地理解与 COVID-19 相关的文献，我们提出了一种新颖的 BERT 架构，该架构能够提供长度较长的论文的简洁而原创的摘要，并通过在线学习最小化灾难性遗忘以适应社群需求。基准测试和手动检查显示，该模型可以提供新的科学文献的良好概要。

Jul, 2020

COVID-19 自动问答任务的语言模型质量评估

本文利用 GPT-2 语言模型，结合 tf-idf、BERT、BioBERT、USE 四种过滤方法，开发了一款自动回答有关 COVID-19 的聊天机器人，并通过医学专家评估，发现 BERT 和 BioBERT 优于 tf-idf 和 USE，以提供正确、即时、有用的健康数据。同时，还创建了一款用户友好型的互动网络应用程序。

Jun, 2020

使用 GPT-3 对医学证据进行总结、简化和综合（成功率不同）

本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估，发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章，但在多篇文章发现的证据综合方面存在困难。

May, 2023

利用文本挖掘技术进行 COVID-19 文献挖掘和检索

使用 NLP 技术，如词袋、平均词向量、平均 BERT 基础模型和 Tf-Idf 加权词向量模型，结合余弦相似度算法，在 CORD-19 数据集中找出与 COVID-19 主题有关的研究文献。

May, 2022

CO-Search：基于语义搜索、问答和摘要生成的 COVID-19 信息检索

本文介绍了 CO-Search，这是一款检索 - 排序语义搜索引擎，设计用于处理 COVID-19 相关文献，包括使用 Siamese-BERT 编码器、BM25 矢量化器和多跳问答模块等，以高效地帮助寻找科学答案，并在多项指标上获得了最佳表现。

Jun, 2020

利用 CT-BERT 和集成学习进行 COVID-19 虚假新闻检测在 Constraint@AAAI2021 上的 g2tmn

本文介绍了使用基于 Transformer 的 COVID-Twitter-BERT（CT-BERT）模型集合的方法来检测英文 COVID-19 虚假新闻的结果和表现。在约 166 个团队中，该方法在第一个共享任务的测试集上取得了最高的加权 F1 得分 98.69。

Dec, 2020

使用 Spark NLP 优化 COVID-19 研究的临床文档理解

该研究构建了一个临床文本挖掘系统，利用命名实体识别和深度学习模型优化了现有技术，能够从 COVID-19 研究数据集中提取潜在趋势和洞见，支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。

Dec, 2020

COVID-Twitter-BERT：一个用于分析 Twitter 上 COVID-19 内容的自然语言处理模型

该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型，通过对大量 Twitter 上有关 COVID-19 的消息进行预训练，该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30％，特别是在 COVID-19 内容（尤其是来自 Twitter 的社交媒体帖子）的分类中表现更突出，从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。

May, 2020

使用 GPT 对大型文档集进行抽象摘要

本研究提出了一种抽象化汇总方法，可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化，支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较，我们发现在 CNN/Daily Mail 测试数据集上，性能与 BART 和 PEGASUS 相当，在 Gigaword 测试数据集上，性能与 BART 相当。这一发现是令人鼓舞的，因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后，我们讨论了规模问题。

Oct, 2023

COVID-19 文献的分类

本研究分析了多个多标签文档分类模型在 LitCovid 数据集上的表现，发现在该数据集上微调过的预训练语言模型表现最佳，并探讨了其数据效率和可推广性，同时也提出了未来研究中需要解决的问题，数据和代码均在 GitHub 上可获取。

Jun, 2020