Continual BERT: COVID-19 文献自适应抽取式摘要的持续学习
我们利用预先训练的 NLP 模型 BERT 和 OpenAI GPT-2,通过对 COVID-19 开放研究数据集中的文本进行摘要来解决研究人员与快速增长出版物之间的差距,我们的模型提供了基于原始文章提取的关键词的抽象和综合信息,我们的工作可以帮助医学界通过提供简要摘要来处理那些摘要尚不可用的文章。
Jun, 2020
该研究提出了一个基于转换器的多标签分类方法,名称为 LITMC-BERT,用于处理生物医学文献中的 LitCovid。与三种基线模型相比,LITMC-BERT 的 micro-F1 和基于样例的 F1 分别比当前最佳结果高 5%和 4%,且只需要 Binary BERT 基线的约 18%的推理时间。
Apr, 2022
SciBERTSUM 是一种针对科学论文的摘要框架,通过增加节嵌入层和应用稀疏注意力机制,在长文本(超过 500 句)中表现出更好的 ROUGE 分数。
Jan, 2022
本文提出了 BERTSUM,即 BERT 的摘要变体,通过在 CNN / Dailymail 数据集上的评估证明其在提取性摘要方面超越了现有的最佳系统。
Mar, 2019
研究利用 COVID-19 作为案例,探讨 BERT 的持续预训练阶段,尤其是实体知识的获取。结果表明,持续预训练使得 BERT 对 COVID-19 具有一定的实体知识。在使用事实核查基准 Check-COVID 测试连续预训练的鲁棒性时,我们发现恶意训练和词序乱序等故意篡改数据的方法并没有降低模型的下游性能,甚至有时还能改善,这表明 BERT 的持续预训练对于恶意信息具有一定的鲁棒性。此外,我们还发布了一个新数据集,包括 LitCovid 仓库中的原始文本和 AI 生成的错误对应文本。
Jun, 2024
本研究分析了多个多标签文档分类模型在 LitCovid 数据集上的表现,发现在该数据集上微调过的预训练语言模型表现最佳,并探讨了其数据效率和可推广性,同时也提出了未来研究中需要解决的问题,数据和代码均在 GitHub 上可获取。
Jun, 2020
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
本篇论文介绍了使用 Python 的 RESTful 服务 Lecture Summarization Service,利用 BERT 模型和 KMeans 聚类算法对课程内容进行自动摘要,以提供学生便捷的学习方式。该方法虽然有待进一步改进,但是已经取得了令人满意的效果。
Jun, 2019
利用 NLP 技术(如命名实体识别和聚类算法)对 PubMed 数据库中的 LitCovid 文献进行分析,从中筛选出与 COVID-19 相关的生物实体、症状、并发症等,帮助人们快速了解 COVID-19 相关文献的主题和研究进展。
Aug, 2020
本文研究了基于改进的 BERTSum-LSTM 模型的 LCSTS 数据集的信息提取方法,实验结果表明该方法对生成中文新闻摘要有良好效果,对于新闻摘要的构建具有重要意义。
Jun, 2024