BERTuit:通过本地转换器理解 Twitter 上的西班牙语言
该研究介绍了 RoBERTuito,这是一个用于西班牙语用户生成文本的预训练语言模型,通过在超过 5 亿条推文上训练,RoBERTuito 在涉及用户生成文本的基准任务中表现优异,并取得了与英语单语模型相竞争的成绩。
Nov, 2021
BERTweet 是第一个用于英语推文的公共大规模预训练语言模型,通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型,可用于推文文本的各种任务。
May, 2020
本文介绍了 RoBERTweet,这是首个使用罗马尼亚推文进行训练的 Transformer 架构,研究结果表明在推特情感检测、性别歧视语言识别和命名实体识别三个自然语言处理任务中,RoBERTweet 模型优于之前的普通领域罗马尼亚语和多语言语言模型。
Jun, 2023
TwHIN-BERT 是一种多语言语言模型,使用来自 Twitter 的专业领域数据进行训练,并通过具有基于 Twitter 异构信息网络(TwHIN)中丰富的社交互动的社交目标的训练使其不同于以前的预训练语言模型。我们在各种多语言社交推荐和语义理解任务上评估了我们的模型,并展示了相对于已建立的预训练语言模型的重大指标改进。
Sep, 2022
TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型,使用近 9 亿条推文构建,其相对于 BERTurk 更轻量级且推理时间更短,在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法,并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。
Nov, 2023
本文提供了一份全面的研究报告,比较了用于西班牙语的语言模型,报告显示:先前被忽略的大型跨语言模型比单语模型表现更好,单语模型的结果并不是确定性的,需要进一步研究语料库大小、质量和预训练技术等因素。
Dec, 2022
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024
该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型,在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上,BERTje 表现出更好的性能。
Dec, 2019
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020