具有超大词汇量的大型预训练模型：希伯来 BERT 模型的对比分析和一个新模型的超越

Nov, 2022

具有超大词汇量的大型预训练模型：希伯来 BERT 模型的对比分析和一个新模型的超越

Large Pre-Trained Models with Extra-Large Vocabularies: A Contrastive Analysis of Hebrew BERT Models and a New One to Outperform Them All

PDF

Eylon Guetta, Avi Shmidman, Shaltiel Shmidman, Cheyn Shmuel Shmidman, Joshua Guedalia...

TL;DR本篇论文提出了一种新的针对现代希伯来语的预训练语言模型 AlephBERTGimmel，其使用比以前的标准希伯来语 PLMs 更大的词汇表（128K 项）。通过与所有先前的希伯来语 PLMs（mBERT、heBERT、AlephBERT）进行对比分析，并评估了更大词汇量对任务性能的影响，实验表明，更大的词汇量导致的分割更少，而减少分割有助于模型性能，最终，这一新模型实现了所有可用的希伯来基准测试中的新 SOTA，同时为不受限制的使用公开发布。

Abstract

We present a new pre-trained language model (PLM) for modern hebrew, termed AlephBERTGimmel, which employs a much larger vocabulary (128K

pre-trained language model hebrew vocabulary task performance sota

发现论文，激发创造

AlephBERT：一个适用于希伯来自然语言处理应用的大型预训练语言模型

本文介绍了 AlephBERT，一个用于现代希伯来语的大型预训练语言模型，使用该模型在多个希伯来语任务和基准测试中提供了新的最先进结果，包括分词、词性标注、完整的形态标注、命名实体识别和情感分析，并公开了模型。

Apr, 2021

介绍 BEREL: 用于拉宾编码语言的 BERT 嵌入

本文介绍了一种新的面向拉比希伯来语的预训练语言模型 Berel，该模型在处理拉比希伯来语言文本方面的效果优于现有的模型。作者通过希伯来同形异义词的挑战集证明了 Berel 的优越性，并将其模型和同形异义词挑战集公开提供给任何人免费使用。

Aug, 2022

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022

探究大型预训练语言模型在机器翻译中的应用：你所不知道的

本研究评估了大小不同的预训练语言模型（PLMs），并比较了它们在不同领域机器翻译任务中的性能表现，结果表明，对于临床数据而言，相对较小的 Marian 模型表现更好。

Sep, 2022

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B)，并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

mALBERT：一个紧凑的多语言 BERT 模型是否值得？

提出了一种基于 Wikipedia 数据的多语言紧凑型 ALBERT 模型的免费发布，以解决关于 Pretained Language Models（PLM）的伦理和生态影响的问题，并在经典自然语言处理任务中对该模型进行了评估。

Mar, 2024

Breaking Character: MRLs 是否真的只需要使用子词？

对于语言中包含丰富词形的复杂语言，使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是，对于语义任务，基于子单元的 PLM 表现更好，这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。

Apr, 2022

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

KR-BERT：小规模韩语特定语言模型

本论文旨在训练适用于韩语的小型语言模型 KR-BERT，通过采用较小的词汇表和数据集、优化令牌化方法，提高了韩语语言现象的捕捉效率，实现了与大型语言模型相媲美甚至更优的性能。

Aug, 2020