SciBERT : 一个针对科技文本的预训练语言模型
本研究旨在通过基于 Social Science Citation Index (SSCI) 期刊发表的摘要的预训练模型来提高自然语言处理任务的性能,目前该模型已在 GitHub 上发布,并在学科分类、摘要结构 - 功能识别和命名实体识别任务中展现出了优秀的性能。
Jun, 2022
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文旨在满足金融领域中对预训练语言模型的需求,提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型(FinBERT),在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。
Jun, 2020
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本研究的目的是为了提高应用自然语言处理在数学教育中的效果,我们提出了 MathBERT,一种专门针对数学文本域的预训练模型。MathBERT 在基于数学语料库上的三个自然语言处理任务中表现出优异的性能,我们还采用了一种数学特定的词汇表来进一步提高模型的性能。我们公开了 MathBERT 的模型参数以供公众使用。
Jun, 2021
BERTweet 是第一个用于英语推文的公共大规模预训练语言模型,通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型,可用于推文文本的各种任务。
May, 2020
本研究旨在提高科学教育中学生答案自动评分的性能。使用科学教育数据预训练特定领域的语言模型可以提高性能,并在将来自动化科学教育任务方面具有潜在的普适性。
Jan, 2023
本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现,并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而,在模型大小和训练数据等方面存在重大差异的情况下,我们发现这些模型在这些科学任务上的表现几乎没有差异,这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。
May, 2022
本研究使用 Sentencepiece 从藏文网站收集大规模训练数据,并构建了一个词汇表,覆盖了语料库中 99.95%的单词,使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型,最后将 TiBERT 应用于文本分类和问题生成的下游任务,并且与传统模型和多语言预训练模型进行比较,实验结果表明 TiBERT 能够实现最佳性能。
May, 2022