RoBERTweet：适用于罗马尼亚推文的 BERT 语言模型

Jun, 2023

RoBERTweet：适用于罗马尼亚推文的 BERT 语言模型

RoBERTweet: A BERT Language Model for Romanian Tweets

Iulian-Marius Tăiatu, Andrei-Marius Avram, Dumitru-Clementin Cercel, Florin Pop

TL;DR本文介绍了 RoBERTweet，这是首个使用罗马尼亚推文进行训练的 Transformer 架构，研究结果表明在推特情感检测、性别歧视语言识别和命名实体识别三个自然语言处理任务中，RoBERTweet 模型优于之前的普通领域罗马尼亚语和多语言语言模型。

Abstract

Developing natural language processing (NLP) systems for social media analysis remains an important topic in artificial intelligence research. This article introduces robertweet, the first →

natural language processing social media analysis robertweet transformer architecture romanian tweets

发现论文，激发创造

罗马尼亚 BERT 的诞生

介绍了罗马尼亚 BERT，这是第一个纯罗马尼亚的基于 Transformer 的语言模型，并介绍了语料库的组成和清理、模型训练过程以及在各种罗马尼亚数据集上的评估。

Sep, 2020

BERTweet: 英文推文的预训练语言模型

BERTweet 是第一个用于英语推文的公共大规模预训练语言模型，通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型，可用于推文文本的各种任务。

May, 2020

TurkishBERTweet: 快速且可靠的社交媒体分析大型语言模型

TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型，使用近 9 亿条推文构建，其相对于 BERTurk 更轻量级且推理时间更短，在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法，并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。

Nov, 2023

BERTuit：通过本地转换器理解 Twitter 上的西班牙语言

BERTuit 是一个基于 RoBERTa 优化的大型转换器，其目的是为了更好地了解西班牙语 Twitter 并可用于解决该平台上的虚假信息传播问题。该模型在多项任务上进行了评估，并与其他最先进的多语言变压器进行了比较。

Apr, 2022

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

RoBERTuito：面向西班牙社交媒体文本的预训练语言模型

该研究介绍了 RoBERTuito，这是一个用于西班牙语用户生成文本的预训练语言模型，通过在超过 5 亿条推文上训练，RoBERTuito 在涉及用户生成文本的基准任务中表现优异，并取得了与英语单语模型相竞争的成绩。

Nov, 2021

RobBERT-2022: 更新荷兰语言模型以适应语言使用的演变

该研究对 RobBERT 进行了更新，更新了 tokenizer 和数据集，使用新模型取代模型更新的效果显著，证明持续更新语言模型可以提高性能。

Nov, 2022

SemEval-2017 任务 4: 使用 BERT 进行 Twitter 情感分析

使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决，在训练数据量较小的分类任务中，BERT 是一个非常强大的大型语言模型。使用此模型进行实验时，我们使用了包含 12 个隐藏层的 BERT BASE 模型，该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型，在二分类子任务中表现更好，我们还在实验过程中考虑了所有种类的伦理问题，因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。

Jan, 2024

COVID-Twitter-BERT：一个用于分析 Twitter 上 COVID-19 内容的自然语言处理模型

该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型，通过对大量 Twitter 上有关 COVID-19 的消息进行预训练，该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30％，特别是在 COVID-19 内容（尤其是来自 Twitter 的社交媒体帖子）的分类中表现更突出，从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。

May, 2020

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020