德国的下一代语言模型

COLINGOct, 2020

German's Next Language Model

Branden Chan, Stefan Schweter, Timo Möller

TL;DR本文介绍了我们使用 BERT 和 ELECTRA 基于德语的语言模型 GBERT 和 GELECTRA 的实验，通过改变输入训练数据、模型大小和整个单词掩蔽（WWM）的存在，我们成功实现了在基础和大型模型的文件分类和命名实体识别（NER）任务中取得 SoTA 性能。我们的训练数据采用了 “评估驱动方法”，表明加入更多的数据和使用 WWM 都能提高模型性能。通过对现有德语模型进行基准测试，我们证明这些模型是迄今为止最好的德语模型。我们的训练模型将公开提供给研究社区。

Abstract

In this work we present the experiments which lead to the creation of our bert and electra based german language models, GBERT and GELECTR

german language models bert electra document classification named entity recognition

发现论文，激发创造

GottBERT: 纯德语语言模型

该研究介绍了 GottBERT，它是德语单语言 RoBERTa 模型的首次发布，并成功在命名实体识别任务和文本分类任务上超越了其他测试的德语和多语种模型，以期支持德语自然语言处理领域。

Dec, 2020

使用 BERT 进行神经机器翻译

该论文研究了利用 BERT 预训练模型对神经机器翻译任务进行有监督学习，探究整合预训练模型和神经机器翻译模型的方法，以及 BERT 训练中单语数据对最终翻译质量的影响。作者使用了英德和英俄数据集进行评估，并通过在领域外测试集和注入噪声测试集上进行评估以评估 BERT 预训练表示对模型鲁棒性的影响。

Sep, 2019

SwissBERT：瑞士的多语言语言模型

SwissBERT 是一个针对处理与瑞士有关的文本而创建的掩模语言模型，它是一个预训练模型，适用于瑞士的德语、法语、意大利语和罗曼什语的新闻文章，该模型使用语言适配器，在处理当代新闻和 / 或罗曼什・格里施人时，往往可以比以前的模型更好地完成与瑞士有关的自然语言理解任务，模型和开源代码在公共网址上发布。

Mar, 2023

德国 BERT 法律命名实体识别模型

本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型，用于 Legal Entity Recognition（LER）数据集，结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优，并通过 HuggingFace 对外公开。

Mar, 2023

德国 FinBERT：一种德语预训练语言模型

德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型，通过综合的预训练过程进行训练，利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明，在金融领域数据上，德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能，表明其捕捉领域特定细微差别的效果，该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具，有潜在的应用于金融领域的多个应用场景。

Nov, 2023

使用预训练字素模型的神经音素转换

本文提出了一种预训练的字形模型 GBERT，通过两种方法将其融合到基于 Transformer 的 G2P 模型中，实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。

Jan, 2022

G-SciEdBERT：一个面向德语科学评估任务的情境化语言模型

为了提高德语科学教育作文自动评分准确性，本研究开发了一种针对德语科学教育领域评分的语境化德语科学教育 BERT (G-SciEdBERT)，经与 G-BERT 进行性能比较，发现 G-SciEdBERT 相较于 G-BERT 在评分准确性上有显著提高，并在教育人工智能领域做出了重要贡献。

Feb, 2024

SlovakBERT：斯洛伐克遮罩语言模型

介绍了一种名为 SlovakBERT 的新型斯洛伐克遮蔽语言模型，是第一篇讨论基于 transformers 的斯洛伐克语言模型的论文。评估发现该模型在多项自然语言处理任务中取得了最优结果，并建立了斯洛伐克语言模型的基准。发布了遮蔽语言模型以及针对词性标注、情感分析和语义文本相似性的微调模型。

Sep, 2021

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

微软译者在 WMT 2019 上：朝着大规模文件级神经机器翻译迈进

本文介绍了微软译者参加 WMT19 新闻翻译的论文，重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集，并探索了微调技术，更深层次的模型以及不同的集成策略，最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中，研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。

Jul, 2019