GottBERT: 纯德语语言模型
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型,通过综合的预训练过程进行训练,利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明,在金融领域数据上,德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能,表明其捕捉领域特定细微差别的效果,该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具,有潜在的应用于金融领域的多个应用场景。
Nov, 2023
本文介绍了我们使用 BERT 和 ELECTRA 基于德语的语言模型 GBERT 和 GELECTRA 的实验,通过改变输入训练数据、模型大小和整个单词掩蔽(WWM)的存在,我们成功实现了在基础和大型模型的文件分类和命名实体识别(NER)任务中取得 SoTA 性能。我们的训练数据采用了 “评估驱动方法”,表明加入更多的数据和使用 WWM 都能提高模型性能。通过对现有德语模型进行基准测试,我们证明这些模型是迄今为止最好的德语模型。我们的训练模型将公开提供给研究社区。
Oct, 2020
该研究对 RobBERT 进行了更新,更新了 tokenizer 和数据集,使用新模型取代模型更新的效果显著,证明持续更新语言模型可以提高性能。
Nov, 2022
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
为了提高德语科学教育作文自动评分准确性,本研究开发了一种针对德语科学教育领域评分的语境化德语科学教育 BERT (G-SciEdBERT),经与 G-BERT 进行性能比较,发现 G-SciEdBERT 相较于 G-BERT 在评分准确性上有显著提高,并在教育人工智能领域做出了重要贡献。
Feb, 2024
本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型,用于 Legal Entity Recognition(LER)数据集,结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优,并通过 HuggingFace 对外公开。
Mar, 2023
本文介绍了第一项针对波兰语的去构建 BERT 的训练过程的消融研究,其中探讨了跨语言训练和其他因素,最终实现了一个波兰语 BERT 模型 HerBERT,并在多个下游任务中达到了最佳结果。
May, 2021