LegalTurk 多标签文本分类和实体识别的优化 BERT

Jun, 2024

LegalTurk 多标签文本分类和实体识别的优化 BERT

LegalTurk Optimized BERT for Multi-Label Text Classification and NER

Farnaz Zeidi, Mehmet Fatih Amasyali, Çiğdem Erol

TL;DR我们的研究主要致力于通过预训练阶段的修改来提升法律土耳其领域内的 BERT 模型，在法律领域的两个基本下游任务中，即命名实体识别和多标签文本分类，我们的修改的预训练方法在 NER 和多标签文本分类任务中相较于原 BERT 模型展现出了显著改进。

Abstract

The introduction of the transformer neural network, along with techniques like self-supervised pre-training and transfer learning, has paved the way for advanced models like →

transformer neural network bert turkish domain pre-training name entity recognition

发现论文，激发创造

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023

基于 Transformer 的细调编码器在土耳其语言理解任务中的应用

我们在这项研究中，为土耳其语提供了基于 Transformer 模型的 BERTurk 模型，并进行了多个下游任务的微调和评估，包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比，我们的研究在土耳其语中显著提高了性能，并公开发布了这四个微调模型和资源，以支持其他土耳其研究人员和应用。

Jan, 2024

LEGAL-BERT：法学院里的大毛怪

本文研究了 BERT 在法律领域中的适应性指南并提出使用原始 BERT、在领域特定语料库上进行追加预训练的 BERT 和在领域特定语料库上从头开始预训练的 BERT 三种策略。并针对下游任务进行更广泛的超参数搜索空间，并发布了 LEGAL-BERT，用于辅助法律 NLP 研究、计算法律和法律技术应用。

Oct, 2020

预训练语言模型在土耳其地址解析中的比较

本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa，以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验，结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好，并且 BERT 变种对于地址类别分类的效果非常好。

Jun, 2023

AraLegal-BERT：针对阿拉伯语法律文本的预训练语言模型

本文介紹了 AraLegal-BERT 模型，評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。

Oct, 2022

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

基于 Transformer 的实体法律形式分类

使用 Transformer-based 的语言模型对原始的法人实体名称进行实体法律形式分类，通过与多个传统基准进行比较，我们发现预训练的 BERT 变种在 F1 得分方面优于传统文本分类方法，并在宏 F1 得分方面表现良好。此外，通过在十个选定的法域中进行的第三方专家评审的结果支持我们的提议。该研究突出了 Transformer-based 模型在推进数据标准化和数据集成方面的巨大潜力，这些方法可以极大地有助于金融机构、公司、政府和其他组织评估业务关系、理解风险暴露和促进有效治理。

Oct, 2023

德国 BERT 法律命名实体识别模型

本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型，用于 Legal Entity Recognition（LER）数据集，结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优，并通过 HuggingFace 对外公开。

Mar, 2023

RoBERTurk：针对土耳其语进行 RoBERTa 的调整

使用 BPE 分词工具，我们在土耳其语语料库上对 RoBERTa 进行预训练，模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型，在 IMST 数据集上表现不佳，在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数，且只使用了较小的预训练数据，我们公开了我们的预训练模型和分词工具。

Jan, 2024

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019