引入cosmosGPT:针对土耳其语言模型的单语言训练
本研究集中关注在Catalan语言,通过构建一个中等大小的单语言模型并进行完整的评估,成功地通过多样的任务比较,充分证明了其优越性,从而证实了在数据充足的情况下,单语言特定模型的效果能够超越多语言模型。
Jul, 2021
本研究通过对土耳其语系22种语言的大规模机器翻译系统的培训和评估,发现MNMT模型在领域外测试集中的表现优于几乎所有双语基线,并在单对下游任务的微调中也获得了巨大的性能提升。
Sep, 2021
本文主要介绍了一个名为Mukayese的NLP基准集,它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试,并且为每个基准测试提供多个数据集和基准值。
Mar, 2022
该研究聚焦于用于芬兰语的大型语言模型(LLMs)的创建和评估,通过从各种来源收集数据并进行预训练,综合其他语言模型的方法,在芬兰语领域取得了显著进展,并对模型的质量进行了评估,包括毒性和偏见。
Nov, 2023
我们提出了VBART,这是第一个基于大型语料库从头开始预训练的土耳其序列到序列大型语言模型。VBART是基于BART和mBART模型的好主意的紧凑型语言模型,有两个不同尺寸的模型:大型和超大型。精调的VBART模型在抽象文本摘要、标题生成、文本改写、问答和问题生成任务中超过了之前的最先进结果。它们允许对未来的文本生成任务和数据集进行精调,为土耳其自然语言处理研究开辟了新的道路。我们的工作表明,对于土耳其语言模型的预训练比多语言模型提高了多达3倍,改进了现有结果,并为训练和推理提供了高效的模型。此外,我们展示了我们的单语tokenizer比OpenAI的多语tokenizer高效7倍。最后,我们介绍了一种扩大现有预训练语言模型的方法,并质疑了Chinchilla Scaling Law在序列到序列屏蔽语言模型中的相关性。我们的精调模型、tokenizer和清理后的135 GB网络语料库都可以在huggingface.co/vngrs-ai公开获取。
Mar, 2024
本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白,通过比较七个选择的语言模型在上下文学习和问答能力方面的表现,发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型,并且上下文学习的表现与问答的表现关系不大。
Apr, 2024
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
本研究论文介绍了针对阿塞拜疆语的多语种大型语言模型的开源基础模型,包括大规模文本语料库、仅编码器语言模型的系列以及用于评估该模型的标注数据集,并对支持阿塞拜疆语的所有主要开源模型进行了广泛评估。
Jul, 2024
本研究针对低资源语言中的现有多语言模型表现不佳的问题,提出了金鱼这一新颖的单语自回归Transformer语言模型系列,支持多达350种语言。尽管金鱼模型的参数数量较小,但在98种语言的FLORES困惑度指标上优于现有大型多语言模型。本研究为低资源NLP研究提供了有效的基准模型和微调来源,促进了该领域的进一步发展。
Aug, 2024
本研究针对大型语言模型(LLMs)在欧洲官方语言中的应用现状进行了综述,填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析,本文提出了改进和增强LLMs的有效方法,并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。
Aug, 2024