LegalTurk 多标签文本分类和实体识别的优化 BERT
本研究旨在探讨语言资源有限情况下,各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响,并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现,在使用大量通用域语料库的情况下,通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外,本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。
May, 2023
我们在这项研究中,为土耳其语提供了基于 Transformer 模型的 BERTurk 模型,并进行了多个下游任务的微调和评估,包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比,我们的研究在土耳其语中显著提高了性能,并公开发布了这四个微调模型和资源,以支持其他土耳其研究人员和应用。
Jan, 2024
本文研究了 BERT 在法律领域中的适应性指南并提出使用原始 BERT、在领域特定语料库上进行追加预训练的 BERT 和在领域特定语料库上从头开始预训练的 BERT 三种策略。并针对下游任务进行更广泛的超参数搜索空间,并发布了 LEGAL-BERT,用于辅助法律 NLP 研究、计算法律和法律技术应用。
Oct, 2020
本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa,以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验,结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好,并且 BERT 变种对于地址类别分类的效果非常好。
Jun, 2023
本文介紹了 AraLegal-BERT 模型,評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。
Oct, 2022
本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练,在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。
May, 2020
使用 Transformer-based 的语言模型对原始的法人实体名称进行实体法律形式分类,通过与多个传统基准进行比较,我们发现预训练的 BERT 变种在 F1 得分方面优于传统文本分类方法,并在宏 F1 得分方面表现良好。此外,通过在十个选定的法域中进行的第三方专家评审的结果支持我们的提议。该研究突出了 Transformer-based 模型在推进数据标准化和数据集成方面的巨大潜力,这些方法可以极大地有助于金融机构、公司、政府和其他组织评估业务关系、理解风险暴露和促进有效治理。
Oct, 2023
本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型,用于 Legal Entity Recognition(LER)数据集,结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优,并通过 HuggingFace 对外公开。
Mar, 2023
使用 BPE 分词工具,我们在土耳其语语料库上对 RoBERTa 进行预训练,模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型,在 IMST 数据集上表现不佳,在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数,且只使用了较小的预训练数据,我们公开了我们的预训练模型和分词工具。
Jan, 2024