规模化波兰变压器语言模型预训练
本文介绍了第一项针对波兰语的去构建 BERT 的训练过程的消融研究,其中探讨了跨语言训练和其他因素,最终实现了一个波兰语 BERT 模型 HerBERT,并在多个下游任务中达到了最佳结果。
May, 2021
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
该论文展示了使用预训练的、多语言 Transformer 模型,并通过微调来解决英语和波兰语文本特征下的产品匹配问题。该论文在英语中测试了多语言 mBERT 和 XLM-RoBERTa 模型,发现在 Web Data Commons - 训练数据集和大规模产品匹配的黄金标准上,这些模型的表现与最新的解决方案相似,在某些情况下效果甚至更好。此外,该论文还使用波兰语制作了第一个产品匹配任务的开放数据集,并展示了微调后的 mBERT 和 XLM-RoBERTa 模型在波兰数据集上的基线结果。
May, 2022
本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa,以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验,结果表明土耳其语特定模型与多语言 fine-tuning 的相比略微更好,并且 BERT 变种对于地址类别分类的效果非常好。
Jun, 2023
本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准,并介绍了针对该语言的 Transformer 模型 HerBERT,该模型在 9 个任务中表现最好,其中包括命名实体识别和情感分析等多个领域。
May, 2020
该论文介绍了一组 13 个基于编码器(ruBERT、ruRoBERTa、ruELECTRA)、解码器(ruGPT-3)和编码器 - 解码器(ruT5、FRED-T5)模型构建的俄语 Transformer 语言模型。通过预训练和发布这些专用的 Transformer 语言模型,希望扩大自然语言处理研究的范围,并为俄语语言的工业解决方案的开发提供支持。
Sep, 2023
介绍了罗马尼亚 BERT,这是第一个纯罗马尼亚的基于 Transformer 的语言模型,并介绍了语料库的组成和清理、模型训练过程以及在各种罗马尼亚数据集上的评估。
Sep, 2020
介绍了一个用于评估波兰语文本生成模型的新基准。基准由多种任务和数据集组成,可以用于翻译、摘要和问答等自然语言处理任务的评估,并特别介绍了用于波兰语的通用文本生成模型 plT5。
May, 2022