SwissBERT:瑞士的多语言语言模型
对句子或短文档进行嵌入式编码的编码器模型,用于语义搜索和主题建模。本文介绍了一种专门为此目的微调的 SwissBERT 编码器模型版本,采用对瑞士四种国家语言(德语、法语、意大利语和罗曼什语)进行了预训练,使用对应文章子集的对比学习进行微调,实验证明 SentenceSwissBERT 在瑞士特定环境下的文档检索和文本分类任务中表现对原始 SwissBERT 模型和可比基准模型的准确性。该模型可供研究使用。
May, 2024
介绍了一种名为 SlovakBERT 的新型斯洛伐克遮蔽语言模型,是第一篇讨论基于 transformers 的斯洛伐克语言模型的论文。评估发现该模型在多项自然语言处理任务中取得了最优结果,并建立了斯洛伐克语言模型的基准。发布了遮蔽语言模型以及针对词性标注、情感分析和语义文本相似性的微调模型。
Sep, 2021
本文介绍了我们使用 BERT 和 ELECTRA 基于德语的语言模型 GBERT 和 GELECTRA 的实验,通过改变输入训练数据、模型大小和整个单词掩蔽(WWM)的存在,我们成功实现了在基础和大型模型的文件分类和命名实体识别(NER)任务中取得 SoTA 性能。我们的训练数据采用了 “评估驱动方法”,表明加入更多的数据和使用 WWM 都能提高模型性能。通过对现有德语模型进行基准测试,我们证明这些模型是迄今为止最好的德语模型。我们的训练模型将公开提供给研究社区。
Oct, 2020
德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型,通过综合的预训练过程进行训练,利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明,在金融领域数据上,德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能,表明其捕捉领域特定细微差别的效果,该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具,有潜在的应用于金融领域的多个应用场景。
Nov, 2023
该研究介绍了 GottBERT,它是德语单语言 RoBERTa 模型的首次发布,并成功在命名实体识别任务和文本分类任务上超越了其他测试的德语和多语种模型,以期支持德语自然语言处理领域。
Dec, 2020
本文介绍了首个基于 BERT 和 ALBERT 架构的捷克语单语言表示模型的训练过程,使用超过 340,000 个句子进行预训练,并在 9 个数据集上超越了多语言模型的表现,同时在九个数据集上取得了新的最优结果。
Mar, 2021
本文探讨了多语言 BERT 模型在语言编码、语法特性、语言生成等任务上的表现,发现该模型性能低于单语言模型,在某些情况下无法取代单语言模型,尤其在北欧语言方面表现不足。
Oct, 2019
本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程,并引入 42 个新的这种模型,以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估,并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器,这些特定语言模型在某些语言方面表现出显著的改进,而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。
Jun, 2020
通过多语言的法律案例数据集,使用 BERT 模型,成功预测了瑞士联邦最高法院的裁决案例,提高了司法工作效率。
Oct, 2021
在这篇研究中,我们使用继续预训练的方法利用现有的多语言编码器,并添加瑞士德语适配器来适应瑞士德语,从而完成了面临的挑战。通过在三个不同的下游任务上进行评估,我们发现仅仅将瑞士德语适配器添加到模块化编码器中就可以实现完全单体化适配性能的 97.5%。此外,对于给定标准德语查询的情况下检索瑞士德语句子的任务,我们发现调整字符级别模型比其他适应策略更为有效。我们将我们的代码和进行实验的模型公开发布于此 https URL。
Jan, 2024