CroissantLLM: 一个真正的法英双语语言模型
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
Nov, 2019
本论文介绍了一种针对越南语设计的创新型大型语言模型 vi-mistral-x,利用连续预训练的独特方法,通过 Mistral 架构结合了分组查询注意力和滑动窗口注意力技术,大幅提升了对越南语的理解和生成能力,在文本分类、问题回答和文本生成等关键领域明显优于现有的越南语大型语言模型,特别在越南多任务语言理解基准测试中表现突出,提升了针对语言的大型语言模型的发展,并鼓励为较少被代表的语言创建更多大型语言模型。
Mar, 2024
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练,我们展示了我们的方法既保留了模型的英语知识,又利用了迁移学习在不同语言之间传递任务知识的优势。
Jan, 2024
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。
Jun, 2024
本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型,并且证明在不失性能的前提下,预训练模型可以扩展到更多语言。此外,作者基于 ML50 数据集表明,多语言微调相较于其他训练方式有显著提升。
Aug, 2020
通过多语言训练,研究引入了 Poro 34B 模型,该模型具有 340 亿个参数,并使用 1 万亿个标记的芬兰语、英语和编程语言进行训练,证明了多语言训练方法可以显著改进现有的芬兰语模型,并在翻译和生成英语和编程语言方面具有竞争力。
Apr, 2024
PolyLM 是一个多语言大型语言模型,经过课程学习和自我指导方法的预训练,可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。
Jul, 2023
本研究提出了一种基于双语词典的能效框架 GreenPLM,将一种语言模型直接翻译到其他语言,以促进 NLP 研究中所有语言使用者的机会均等和减少能源消耗。18 种语言的验证结果表明,该框架相较其他有高成本的启发式算法的性能优越,并且在低计算成本下表现良好。
Nov, 2022
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024