RoBERTurk:针对土耳其语进行 RoBERTa 的调整
我们在这项研究中,为土耳其语提供了基于 Transformer 模型的 BERTurk 模型,并进行了多个下游任务的微调和评估,包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比,我们的研究在土耳其语中显著提高了性能,并公开发布了这四个微调模型和资源,以支持其他土耳其研究人员和应用。
Jan, 2024
该研究介绍和评估了微小、迷你、小型和中型的非套壳土耳其 BERT 模型,旨在填补资源匮乏语言领域的研究差距。我们使用多个来源的超过 75GB 文本构建了这些模型的训练集,并在多个任务中进行了测试,包括掩码预测、情感分析、新闻分类和零样本分类。尽管模型规模较小,但我们的模型在保证计算效率和更快执行时间的同时,表现出了强大的性能,包括零样本任务。我们的发现对于发展和应用较小语言模型,特别是在土耳其语境下,提供了有价值的见解。
Jul, 2023
TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型,使用近 9 亿条推文构建,其相对于 BERTurk 更轻量级且推理时间更短,在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法,并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。
Nov, 2023
本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa,以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验,结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好,并且 BERT 变种对于地址类别分类的效果非常好。
Jun, 2023
本研究旨在探讨语言资源有限情况下,各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响,并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现,在使用大量通用域语料库的情况下,通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外,本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。
May, 2023
本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBERTa 预训练的中型语言模型的性能。
Apr, 2022
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
使用预先训练的大型语言模型进行注释方法的研究,针对奥斯曼土耳其语第一个依赖树库。实验结果表明,通过迭代使用多语言 BERT 解析模型进行伪标注数据,手动纠正伪注释以及使用纠正的注释对解析模型进行微调,我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分,将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性,从而实现奥斯曼土耳其语文档的自动化分析。
Feb, 2024
本文介绍了 RoBERTweet,这是首个使用罗马尼亚推文进行训练的 Transformer 架构,研究结果表明在推特情感检测、性别歧视语言识别和命名实体识别三个自然语言处理任务中,RoBERTweet 模型优于之前的普通领域罗马尼亚语和多语言语言模型。
Jun, 2023
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。
Feb, 2021