使用 BERT 和 GPT-2 进行 COVID-19 医疗研究文章的自动文本摘要
为了帮助科学界更好地理解与 COVID-19 相关的文献,我们提出了一种新颖的 BERT 架构,该架构能够提供长度较长的论文的简洁而原创的摘要,并通过在线学习最小化灾难性遗忘以适应社群需求。基准测试和手动检查显示,该模型可以提供新的科学文献的良好概要。
Jul, 2020
本文利用 GPT-2 语言模型,结合 tf-idf、BERT、BioBERT、USE 四种过滤方法,开发了一款自动回答有关 COVID-19 的聊天机器人,并通过医学专家评估,发现 BERT 和 BioBERT 优于 tf-idf 和 USE,以提供正确、即时、有用的健康数据。同时,还创建了一款用户友好型的互动网络应用程序。
Jun, 2020
本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估,发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
使用 NLP 技术,如词袋、平均词向量、平均 BERT 基础模型和 Tf-Idf 加权词向量模型,结合余弦相似度算法,在 CORD-19 数据集中找出与 COVID-19 主题有关的研究文献。
May, 2022
本文介绍了 CO-Search,这是一款检索 - 排序语义搜索引擎,设计用于处理 COVID-19 相关文献,包括使用 Siamese-BERT 编码器、BM25 矢量化器和多跳问答模块等,以高效地帮助寻找科学答案,并在多项指标上获得了最佳表现。
Jun, 2020
本文介绍了使用基于 Transformer 的 COVID-Twitter-BERT(CT-BERT)模型集合的方法来检测英文 COVID-19 虚假新闻的结果和表现。在约 166 个团队中,该方法在第一个共享任务的测试集上取得了最高的加权 F1 得分 98.69。
Dec, 2020
该研究构建了一个临床文本挖掘系统,利用命名实体识别和深度学习模型优化了现有技术,能够从 COVID-19 研究数据集中提取潜在趋势和洞见,支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。
Dec, 2020
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
本研究提出了一种抽象化汇总方法,可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化,支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较,我们发现在 CNN/Daily Mail 测试数据集上,性能与 BART 和 PEGASUS 相当,在 Gigaword 测试数据集上,性能与 BART 相当。这一发现是令人鼓舞的,因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后,我们讨论了规模问题。
Oct, 2023
本研究分析了多个多标签文档分类模型在 LitCovid 数据集上的表现,发现在该数据集上微调过的预训练语言模型表现最佳,并探讨了其数据效率和可推广性,同时也提出了未来研究中需要解决的问题,数据和代码均在 GitHub 上可获取。
Jun, 2020