规模化波兰变压器语言模型预训练
本研究基于Transformer模型提出了一个基于多任务的波兰语言解析的测试基准,并介绍了针对该语言的Transformer模型HerBERT,该模型在9个任务中表现最好,其中包括命名实体识别和情感分析等多个领域。
May, 2020
本文提出了基于渐进式层丢弃的方法,通过模型结构和训练技术的提升效率,加速了基于Transformer的语言模型的训练,相较于基准实验可以在每个样本上平均节省24%的时间,让预训练速度提高2.5倍,同时保持强的知识可迁移性。
Oct, 2020
本文介绍了第一项针对波兰语的去构建BERT的训练过程的消融研究,其中探讨了跨语言训练和其他因素,最终实现了一个波兰语BERT模型HerBERT,并在多个下游任务中达到了最佳结果。
May, 2021
本论文对基于Transformer的预训练语言模型进行了全面调查,并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及T-PTLMs的新分类法,提供了各种有用的库以及未来研究方向,该论文可作为学习核心概念和了解T-PTLMs近期进展的参考资料。
Aug, 2021
本文介绍了使用预训练和微调、提示或文本生成方法解决NLP任务的大型预训练基于transformer的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
本文介绍了作者构建的一个涵盖波兰语自然语言中的事实现象的数据集,并使用基于BERT语言模型的NLI技术对其进行了预测,结果表明BERT模型在此任务中表现良好,但用于模型预测的语言特征需要人工制作,对于诸如entitlement等复杂情况的处理仍需要进一步研究。
Jan, 2022
介绍了一个用于评估波兰语文本生成模型的新基准。基准由多种任务和数据集组成,可以用于翻译、摘要和问答等自然语言处理任务的评估,并特别介绍了用于波兰语的通用文本生成模型plT5。
May, 2022
本研究解决了波兰语言处理中的关键挑战,提出了Bielik 7B v0.1,一个具有70亿参数的生成文本模型。采用了创新技术,如加权指令交叉熵损失和自适应学习率,使得在各类NLP任务和对话能力评估中有显著提升,尤其在推理和角色扮演类别中表现优异。这一模型为波兰语言AI的应用及该领域的基准设定带来了重大进展。
Oct, 2024