FaBERT：波斯语博客上的 BERT 预训练

Feb, 2024

FaBERT：波斯语博客上的 BERT 预训练

FaBERT: Pre-training BERT on Persian Blogs

Mostafa Masumi, Seyed Soroush Majd, Mehrnoush Shamsfard, Hamid Beigy

TL;DRFaBERT 是一种基于波斯语的 BERT 基础模型，在 HmBlogs 语料库上进行了预训练，涵盖了波斯语的非正式和正式文本。在 12 个数据集上的综合评估中，FaBERT 在各种下游任务中持续展现出改进的性能，包括情感分析、命名实体识别、自然语言推理、问答和问题改写，且模型体积较小。研究结果凸显了利用多样化和清理过的语料库（如 HmBlogs）来提升波斯语自然语言处理应用中 BERT 等语言模型性能的重要性。可通过此网址免费访问 FaBERT。

Abstract

We introduce fabert, a persian bert-base model pre-trained on the HmBlogs corpus, encompassing both informal and formal Persian texts. fabert

fabert persian bert-base model natural language understanding corpora persian nlp applications

发现论文，激发创造

ParsBERT：基于 Transformer 的波斯语语言理解模型

本文提出了一种用于波斯语的单语 BERT 模型（ParsBERT），并采用庞大的数据集进行预训练和各种自然语言处理任务，证明该模型相对于其他结构和多语言模型具有更好的性能。

May, 2020

使用 BERT 的波斯语命名实体识别模型 Beheshti-NER

本文使用预训练的深度双向网络 Google BERT，建立了一个用于波斯语命名实体识别的模型，并在 CONLL 2003 评测任务中获得了较高的成绩。

Mar, 2020

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

波斯语的正式风格转换

研究探索了波斯语的形式风格转换，旨在将非正式的文本转化为正式的文本，保持原始含义，并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT，基于 Fa-BERT 架构，结合一致性学习和基于梯度的动态权重，增强模型对语法变化的理解，平衡损失部分，并通过新的度量标准对该模型与传统方法进行了评估，结果表明其在多个指标上的卓越性能，包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性，显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展，能够有效处理语言风格转换，从而简化内容的管理，增强数据挖掘结果，促进跨文化交流。

Jun, 2024

评估用于分析波斯广告数据的 BERT 和 ParsBERT

这篇论文探讨了互联网对现代交易的影响，以及从这些交易产生的数据对组织改善其市场营销努力的重要性。本文以伊朗的在线购买和销售产品和服务的市场 Divar 为例，并介绍了一个竞赛来预测在 Divar 网站上发布的汽车销售广告的百分比。作者在伊朗的低资源语言的背景下，使用了两种先进的语言模型，mBERT 和 ParsBERT，对这些数据进行了分析，提供了两种方法的性能比较，还详细介绍数据挖掘过程和机器学习问题类型和模式评估技术。

May, 2023

FinBERT：金融通信预训练语言模型

本文旨在满足金融领域中对预训练语言模型的需求，提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型（FinBERT），在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。

Jun, 2020

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021

SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

本文介绍了 SaudiBERT，这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较，分为情感分析和文本分类两组，SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分，显著优于其他比较模型。此外，我们还介绍了两个新的沙特方言语料库：沙特推特巨型语料库（STMC），其中包含超过 1.41 亿条沙特方言推文，以及沙特论坛语料库（SFC），其中包含从五个沙特在线论坛收集的 15.2 GB 文本。这两个语料库被用于预训练所提出的模型，它们是文献中报道的最大的沙特方言语料库。结果确认了 SaudiBERT 在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性，在大多数任务中实现了最先进的结果，并超越了研究中包含的其他语言模型。SaudiBERT 模型可以在 https://huggingface.co/faisalq/SaudiBERT 公开获取。

May, 2024

FinBERT：使用预训练语言模型进行金融情感分析

本文提出了一种名为 FinBERT 的基于 BERT 预训练语言模型，用于在金融领域处理自然语言处理任务，实验结果表明它在当前两个金融情感分析数据集上的表现优于现有的机器学习方法。

Aug, 2019

TaBERT: 文本和表格数据联合理解的预训练

该论文提出了一种在语言模型中加入（半）结构化表格信息的方法，并在语义解析任务上取得了新的最佳结果。

May, 2020