RoBERTurk：针对土耳其语进行 RoBERTa 的调整

Jan, 2024

RoBERTurk：针对土耳其语进行 RoBERTa 的调整

RoBERTurk: Adjusting RoBERTa for Turkish

Nuri Tas

TL;DR使用 BPE 分词工具，我们在土耳其语语料库上对 RoBERTa 进行预训练，模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型，在 IMST 数据集上表现不佳，在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数，且只使用了较小的预训练数据，我们公开了我们的预训练模型和分词工具。

Abstract

We pretrain roberta on a Turkish corpora using BPE tokenizer. Our model outperforms BERTurk family models on the BOUN dataset for the pos task while resulting in underperformance on the IMST dataset for the same

roberta pretraining turkish language pos task ner task

发现论文，激发创造

基于 Transformer 的细调编码器在土耳其语言理解任务中的应用

我们在这项研究中，为土耳其语提供了基于 Transformer 模型的 BERTurk 模型，并进行了多个下游任务的微调和评估，包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比，我们的研究在土耳其语中显著提高了性能，并公开发布了这四个微调模型和资源，以支持其他土耳其研究人员和应用。

Jan, 2024

开发和评估小到中型土耳其 BERT 模型

该研究介绍和评估了微小、迷你、小型和中型的非套壳土耳其 BERT 模型，旨在填补资源匮乏语言领域的研究差距。我们使用多个来源的超过 75GB 文本构建了这些模型的训练集，并在多个任务中进行了测试，包括掩码预测、情感分析、新闻分类和零样本分类。尽管模型规模较小，但我们的模型在保证计算效率和更快执行时间的同时，表现出了强大的性能，包括零样本任务。我们的发现对于发展和应用较小语言模型，特别是在土耳其语境下，提供了有价值的见解。

Jul, 2023

TurkishBERTweet: 快速且可靠的社交媒体分析大型语言模型

TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型，使用近 9 亿条推文构建，其相对于 BERTurk 更轻量级且推理时间更短，在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法，并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。

Nov, 2023

预训练语言模型在土耳其地址解析中的比较

本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa，以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验，结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好，并且 BERT 变种对于地址类别分类的效果非常好。

Jun, 2023

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023

令牌化对语言模型的影响：针对土耳其语的分析

本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上，比较了不同粒度级别的分词器的性能和预训练语言模型的效果，并发现单独定制的分子级别分词器具有挑战性的表现，同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBERTa 预训练的中型语言模型的性能。

Apr, 2022

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

多语言 BERT 对鄂图曼土耳其语的依赖注释

使用预先训练的大型语言模型进行注释方法的研究，针对奥斯曼土耳其语第一个依赖树库。实验结果表明，通过迭代使用多语言 BERT 解析模型进行伪标注数据，手动纠正伪注释以及使用纠正的注释对解析模型进行微调，我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分，将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性，从而实现奥斯曼土耳其语文档的自动化分析。

Feb, 2024

RoBERTweet：适用于罗马尼亚推文的 BERT 语言模型

本文介绍了 RoBERTweet，这是首个使用罗马尼亚推文进行训练的 Transformer 架构，研究结果表明在推特情感检测、性别歧视语言识别和命名实体识别三个自然语言处理任务中，RoBERTweet 模型优于之前的普通领域罗马尼亚语和多语言语言模型。

Jun, 2023

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021