WangchanBERTa：基于 Transformer 的泰语语言模型的预训练

Jan, 2021

WangchanBERTa：基于 Transformer 的泰语语言模型的预训练

WangchanBERTa: Pretraining transformer-based Thai Language Models

Lalita Lowphansirikul, Charin Polpanumas, Nawat Jantrakulchai, Sarana Nutanong

TL;DR在泰语这种资源相对较少的语言中，我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练，并研究了不同的标记化方式对下游性能的影响，在人工注释的单语境中，我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。

Abstract

transformer-based language models, more specifically bert-based architectures have achieved state-of-the-art performance in many downstream tasks. However, for a relatively low-resource language such as Thai, the

transformer-based language models bert-based architectures roberta-base architecture thai language pretraining

发现论文，激发创造

PhayaThaiBERT：用未吸收外借词增强预训练泰语语言模型

我们通过从 XLM-R 的预训练分词器进行词汇转移，扩展 WangchanBERTa 的词汇，并使用扩展后的分词器在比 WangchanBERTa 训练集更大的新数据集上进行预训练，结果表明我们的新预训练模型 PhayaThaiBERT 在许多下游任务和数据集中优于 WangchanBERTa。

Nov, 2023

ViSoBERT：用于越南社交媒体文本处理的预训练语言模型

本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT，该模型使用 XLM-R 架构，在大规模高质量多样化的越南社交媒体文本语料库上进行预训练，并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。

Oct, 2023

KR-BERT：小规模韩语特定语言模型

本论文旨在训练适用于韩语的小型语言模型 KR-BERT，通过采用较小的词汇表和数据集、优化令牌化方法，提高了韩语语言现象的捕捉效率，实现了与大型语言模型相媲美甚至更优的性能。

Aug, 2020

TiBERT：藏语预训练语言模型

本研究使用 Sentencepiece 从藏文网站收集大规模训练数据，并构建了一个词汇表，覆盖了语料库中 99.95％的单词，使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型，最后将 TiBERT 应用于文本分类和问题生成的下游任务，并且与传统模型和多语言预训练模型进行比较，实验结果表明 TiBERT 能够实现最佳性能。

May, 2022

ViDeBERTa: 一种用于越南语的强大预训练语言模型

本文介绍了 ViDeBERTa，一种新的越南语预训练单语言模型，使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练，取得了在越南特定的自然语言理解任务上比前文献更好的表现，尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数，其表现非常出色，并且现已提供供大家使用。

Jan, 2023

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

介绍了 BanglaBERT 模型，它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取，作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中，BanglaBERT 均取得了最好的效果，同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开，为孟加拉自然语言处理的进一步发展做出了贡献。

Jan, 2021

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

CamemBERT: 一种美味的法语语言模型

本研究通过利用网络爬虫数据构建法语单语语料库，研究了训练法语单语 Transformer-based 语言模型的可行性，并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。

Nov, 2019

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020