ScholarBERT: 大不见得更好
SciBERT 是一种无监督预训练的基于 BERT 的语言模型,用于解决获取高质量、大规模标注科学数据的难题,并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。
Mar, 2019
本研究探讨了跨语言语言模型预训练的有效性,并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型,这两个新模型分别称为 XLM-R XL 和 XLM-R XXL,在 XNLI 中的平均准确率比 XLM-R 高 1.8%和 2.4%,同时处理了 99 种以上的语言,优于 RoBERTa-Large 模型,表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能,同时极大地改善了低资源语言。
May, 2021
在泰语这种资源相对较少的语言中,我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练,并研究了不同的标记化方式对下游性能的影响,在人工注释的单语境中,我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。
Jan, 2021
本文探讨了小规模训练对于掩码语言模型的影响,使用英国国家语料库作为语料来源,进行了预训练和性能测试,并提出了优化后的 LTG-BERT 模型结构,为掩码语言模型的发展提供了新的思路。
Mar, 2023
本文介绍训练两个三语 Bert 模型 —— 一种适用于芬兰语、爱沙尼亚语和英语的 FinEst BERT 以及一种适用于克罗地亚语、斯洛文尼亚语和英语的 CroSloEngual BERT,并在多种单语和跨语言情况下使用 BERT 和 XLM-R 作为基线评估它们在多个下游任务上的性能,包括命名实体识别、词性标注和依存句法分析,结果表明这些模型能够提高大多数情况下所有任务的结果。
Jun, 2020
研究表明,对面向单一领域的数据进行预训练,也可以得到性能强大且经济实惠的替代解决方案,本文以 StackOverflow 为例,使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练,并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。
Jun, 2023
本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究,特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同,本文侧重于针对冷门语言芬兰语的研究,探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较,实验结果表明后者的表现较好,成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。
Dec, 2019
本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。
Oct, 2021
将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型,并在单句文本分类任务中表明,这些 Student 模型平均保留了 97%的 RoBERTa-Large Teacher 性能,同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速,同时对于句子对分类任务和域泛化设置也具有帮助。
Oct, 2021