SciBERT : 一个针对科技文本的预训练语言模型

Mar, 2019

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo, Arman Cohan

TL;DRSciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Abstract

Obtaining large-scale annotated data for nlp tasks in the scientific domain is challenging and expensive. We release scibert, a

nlp scibert pretrained language model scientific domain unsupervised pretraining

发现论文，激发创造

SsciBERT：用于社会科学文本的预训练语言模型

本研究旨在通过基于 Social Science Citation Index (SSCI) 期刊发表的摘要的预训练模型来提高自然语言处理任务的性能，目前该模型已在 GitHub 上发布，并在学科分类、摘要结构 - 功能识别和命名实体识别任务中展现出了优秀的性能。

Jun, 2022

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

FinBERT：金融通信预训练语言模型

本文旨在满足金融领域中对预训练语言模型的需求，提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型（FinBERT），在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。

Jun, 2020

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

MathBERT：用于数学教育中通用自然语言处理任务的预训练语言模型

本研究的目的是为了提高应用自然语言处理在数学教育中的效果，我们提出了 MathBERT，一种专门针对数学文本域的预训练模型。MathBERT 在基于数学语料库上的三个自然语言处理任务中表现出优异的性能，我们还采用了一种数学特定的词汇表来进一步提高模型的性能。我们公开了 MathBERT 的模型参数以供公众使用。

Jun, 2021

BERTweet: 英文推文的预训练语言模型

BERTweet 是第一个用于英语推文的公共大规模预训练语言模型，通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型，可用于推文文本的各种任务。

May, 2020

上下文至关重要：一种针对科学教育预训练语言模型的策略

本研究旨在提高科学教育中学生答案自动评分的性能。使用科学教育数据预训练特定领域的语言模型可以提高性能，并在将来自动化科学教育任务方面具有潜在的普适性。

Jan, 2023

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

生物医学问答预训练语言模型

本文研究 BioBERT（一种预训练的生物医学语言模型）在回答生物医学问题方面的性能，结果表明使用适当的前 / 后处理策略可以获得最佳性能。

Sep, 2019

TiBERT：藏语预训练语言模型

本研究使用 Sentencepiece 从藏文网站收集大规模训练数据，并构建了一个词汇表，覆盖了语料库中 99.95％的单词，使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型，最后将 TiBERT 应用于文本分类和问题生成的下游任务，并且与传统模型和多语言预训练模型进行比较，实验结果表明 TiBERT 能够实现最佳性能。

May, 2022