本文介绍了两个基于流行的 BERT 架构的波兰语语言模型,经过评估,我们的模型在 13 个波兰语语言任务中取得了显著的提高。
Jun, 2020
本文介绍了第一项针对波兰语的去构建 BERT 的训练过程的消融研究,其中探讨了跨语言训练和其他因素,最终实现了一个波兰语 BERT 模型 HerBERT,并在多个下游任务中达到了最佳结果。
May, 2021
介绍了一个用于评估波兰语文本生成模型的新基准。基准由多种任务和数据集组成,可以用于翻译、摘要和问答等自然语言处理任务的评估,并特别介绍了用于波兰语的通用文本生成模型 plT5。
May, 2022
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
我们通过对 LLaMA 的实证研究发现,在使用不到 1% 的预训练数据时,可以实现与最先进的转移模型相媲美的性能,无论是在知识对齐还是响应质量方面,这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。
Jan, 2024
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准,并介绍了针对该语言的 Transformer 模型 HerBERT,该模型在 9 个任务中表现最好,其中包括命名实体识别和情感分析等多个领域。
May, 2020
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响,研究发现,在迁移学习中,拥有更多的数据通常会导致更好的性能,然而,相关语言在特定语言对的数据有限时也可以特别有效,最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明,相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能,同时还表明了相关语言在零样本和小样本时的重要性。
Jun, 2023