ScholarBERT: 大不见得更好

May, 2022

ScholarBERT: Bigger is Not Always Better

Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Carl Malamud...

TL;DR本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

Abstract

Transformer-based masked language models trained on general corpora, such as BERT and RoBERTa, have shown impressive performance on various downstream tasks. Increasingly, researchers are "finetuning" these models to improve →

transformer-based models scientific tasks scholarbert performance bert-based architectures

发现论文，激发创造

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019

面向多语言掩码语言建模的大规模 Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型，这两个新模型分别称为 XLM-R XL 和 XLM-R XXL，在 XNLI 中的平均准确率比 XLM-R 高 1.8％和 2.4％，同时处理了 99 种以上的语言，优于 RoBERTa-Large 模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021

WangchanBERTa：基于 Transformer 的泰语语言模型的预训练

在泰语这种资源相对较少的语言中，我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练，并研究了不同的标记化方式对下游性能的影响，在人工注释的单语境中，我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。

Jan, 2021

规模化波兰变压器语言模型预训练

本文介绍了两个基于流行的 BERT 架构的波兰语语言模型，经过评估，我们的模型在 13 个波兰语语言任务中取得了显著的提高。

Jun, 2020

经过 1 亿个单词的训练，BERT 依然保持着良好状态：BERT 遇见英国国家语料库

本文探讨了小规模训练对于掩码语言模型的影响，使用英国国家语料库作为语料来源，进行了预训练和性能测试，并提出了优化后的 LTG-BERT 模型结构，为掩码语言模型的发展提供了新的思路。

Mar, 2023

FinEst BERT 和 CroSloEngual BERT: 在多语言模型中，少即是多

本文介绍训练两个三语 Bert 模型 —— 一种适用于芬兰语、爱沙尼亚语和英语的 FinEst BERT 以及一种适用于克罗地亚语、斯洛文尼亚语和英语的 CroSloEngual BERT，并在多种单语和跨语言情况下使用 BERT 和 XLM-R 作为基线评估它们在多个下游任务上的性能，包括命名实体识别、词性标注和依存句法分析，结果表明这些模型能够提高大多数情况下所有任务的结果。

Jun, 2020

领域特定预训练模型的重要性：相较通用模型而言

研究表明，对面向单一领域的数据进行预训练，也可以得到性能强大且经济实惠的替代解决方案，本文以 StackOverflow 为例，使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练，并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。

Jun, 2023

BERT 用于芬兰语的多语言处理

本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究，特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同，本文侧重于针对冷门语言芬兰语的研究，探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较，实验结果表明后者的表现较好，成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。

Dec, 2019

bert2BERT：面向可重用的预训练语言模型

本文提出了 bert2BERT，通过参数初始化有效地将现有较小的预训练模型（如 BRET_BASE）的知识转移到大型模型（如 BERT_LARGE），并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法，以此显着提高大型模型的预训练效率，这个方法被证明要比从头开始训练，StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本，特别是 bert2BERT 通过重复使用几乎是其一半大小的模型，将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。

Oct, 2021

稀疏蒸馏：使用更大的学生模型加速文本分类

将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型，并在单句文本分类任务中表明，这些 Student 模型平均保留了 97％的 RoBERTa-Large Teacher 性能，同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速，同时对于句子对分类任务和域泛化设置也具有帮助。

Oct, 2021