开发和评估小到中型土耳其 BERT 模型

Jul, 2023

开发和评估小到中型土耳其 BERT 模型

Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models

Himmet Toprak Kesgin, Muzaffer Kaan Yuce, Mehmet Fatih Amasyali

TL;DR该研究介绍和评估了微小、迷你、小型和中型的非套壳土耳其 BERT 模型，旨在填补资源匮乏语言领域的研究差距。我们使用多个来源的超过 75GB 文本构建了这些模型的训练集，并在多个任务中进行了测试，包括掩码预测、情感分析、新闻分类和零样本分类。尽管模型规模较小，但我们的模型在保证计算效率和更快执行时间的同时，表现出了强大的性能，包括零样本任务。我们的发现对于发展和应用较小语言模型，特别是在土耳其语境下，提供了有价值的见解。

Abstract

This study introduces and evaluates tiny, mini, small, and medium-sized

tiny mini small medium-sized turkish bert models

发现论文，激发创造

TurkishBERTweet: 快速且可靠的社交媒体分析大型语言模型

TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型，使用近 9 亿条推文构建，其相对于 BERTurk 更轻量级且推理时间更短，在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法，并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。

Nov, 2023

基于 Transformer 的细调编码器在土耳其语言理解任务中的应用

我们在这项研究中，为土耳其语提供了基于 Transformer 模型的 BERTurk 模型，并进行了多个下游任务的微调和评估，包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比，我们的研究在土耳其语中显著提高了性能，并公开发布了这四个微调模型和资源，以支持其他土耳其研究人员和应用。

Jan, 2024

序列标注的小型实用 BERT 模型

我们提出了一种实用的方案来训练一个单一的多语言序列标注模型，这个模型在单个 CPU 上运行，能够给出最先进的结果，足够小和快速。从一个公共的多语言 BERT 检查点开始，我们的最终模型比最先进的多语言基线模型更加准确，并且速度更快，6 倍更小。我们证明了我们的模型特别是在低资源语言上表现出色，并且可以在混合输入文本上工作，而不需要对混合示例进行明确的训练。我们通过 70 棵树库和 48 种语言的词汇标注和形态预测来展示我们方法的有效性。

Aug, 2019

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023

KR-BERT：小规模韩语特定语言模型

本论文旨在训练适用于韩语的小型语言模型 KR-BERT，通过采用较小的词汇表和数据集、优化令牌化方法，提高了韩语语言现象的捕捉效率，实现了与大型语言模型相媲美甚至更优的性能。

Aug, 2020

加载所需：多语言 BERT 的较小版本

本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Oct, 2020

RoBERTurk：针对土耳其语进行 RoBERTa 的调整

使用 BPE 分词工具，我们在土耳其语语料库上对 RoBERTa 进行预训练，模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型，在 IMST 数据集上表现不佳，在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数，且只使用了较小的预训练数据，我们公开了我们的预训练模型和分词工具。

Jan, 2024

针对土耳其文本的目标情感分析数据集和基于 BERT 的模型

本研究旨在利用目标情感分析从给定的文本中提取针对特定目标的情感，我们提供了适用于目标情感分析的标注土耳其数据集，并提出了基于 BERT 的模型，结果表明，与传统情感分析模型相比，所提出的模型具有更好的性能。

May, 2022

预训练语言模型在土耳其地址解析中的比较

本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa，以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验，结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好，并且 BERT 变种对于地址类别分类的效果非常好。

Jun, 2023

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022