RoBERTweet:适用于罗马尼亚推文的 BERT 语言模型
介绍了罗马尼亚 BERT,这是第一个纯罗马尼亚的基于 Transformer 的语言模型,并介绍了语料库的组成和清理、模型训练过程以及在各种罗马尼亚数据集上的评估。
Sep, 2020
BERTweet 是第一个用于英语推文的公共大规模预训练语言模型,通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型,可用于推文文本的各种任务。
May, 2020
TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型,使用近 9 亿条推文构建,其相对于 BERTurk 更轻量级且推理时间更短,在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法,并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。
Nov, 2023
BERTuit 是一个基于 RoBERTa 优化的大型转换器,其目的是为了更好地了解西班牙语 Twitter 并可用于解决该平台上的虚假信息传播问题。该模型在多项任务上进行了评估,并与其他最先进的多语言变压器进行了比较。
Apr, 2022
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
该研究介绍了 RoBERTuito,这是一个用于西班牙语用户生成文本的预训练语言模型,通过在超过 5 亿条推文上训练,RoBERTuito 在涉及用户生成文本的基准任务中表现优异,并取得了与英语单语模型相竞争的成绩。
Nov, 2021
该研究对 RobBERT 进行了更新,更新了 tokenizer 和数据集,使用新模型取代模型更新的效果显著,证明持续更新语言模型可以提高性能。
Nov, 2022
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020