通过用纯土耳其语语料库训练建立的 cosmosGPT 模型和适应土耳其语的语言模型的全面比较,研究结果显示,尽管相较于其他模型,我们用单语料库建立的语言模型规模较小约 10 倍,但其表现仍然有可观的性能。
Apr, 2024
本文旨在解决土耳其语自然语言处理方面的挑战,探讨通过构建大规模土耳其语语料库和训练大型语言模型(LLM),在细调已经训练好的模型的基础上,实现特定任务的自定义大型语言模型。
Jun, 2023
通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练,我们展示了我们的方法既保留了模型的英语知识,又利用了迁移学习在不同语言之间传递任务知识的优势。
Jan, 2024
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
大型语言模型已在多个领域进行了转变,但是小语种面临高昂的训练成本和大公司训练这些模型的小利益。为了解决这个问题,丹麦基础模型项目通过广泛合作提供和维护丹麦语的开放、文档齐全和高质量的基础模型,确保训练模型的数据质量和适用性。本文介绍了该项目的动机、当前状态和未来展望。
Nov, 2023
本研究对使用不同技术和数据集的阿塞拜疆语 - 英语 NMT 系统进行表现基准测试,并评估哪种分段技术在阿塞拜疆语翻译中效果最佳。结果显示,虽然 Unigram 分割可以提高 NMT 性能,而且阿塞拜疆语翻译模型随着数据集质量而不是数量的提高而具有更好的规模性,但跨域泛化仍然是一个挑战。
Jul, 2022
本文是大规模实际应用机器翻译于突厥语系的案例研究,在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈,并提供这些数据与模型的公开开放。
Sep, 2021
通过本综述论文,我们对大规模 GPT 模型的可替代开源模型进行了研究,重点关注用户友好和相对小型的模型,以促进更容易部署和访问。通过这个广泛的调查,我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解,包括它们的当前状态、挑战和未来研究方向,以激发更高效、易于访问和多功能的 GPT 模型的开发,以满足更广泛的科学界需求,推动通用人工智能领域的发展。
Aug, 2023
本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白,通过比较七个选择的语言模型在上下文学习和问答能力方面的表现,发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型,并且上下文学习的表现与问答的表现关系不大。
我们介绍了 Jais 和 Jais-chat,这是最新的阿拉伯语中心基于 GPT-3 解码器结构的大规模生成式语言模型,通过对阿拉伯语和英语文本进行预训练来展示出比现有的阿拉伯语和多语言模型更强的知识和推理能力,提供了详细的训练、调优、安全对齐和评估说明,并发布了两个开源版本的模型,旨在推动阿拉伯语语言模型的研究。