本调查综述了自然语言生成的定义、应用、方法及评估,提供了一种神经网络生成模型的信息总览。
Jul, 2020
本文综述了预训练语言模型在文本生成方面的主要进展,包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言,该综述提供了相关研究的综合和指引。
May, 2021
本研究提出了一种评估方法,针对用于巴西葡萄牙文的语言模型,通过固定的语言格式,考察语言信息的编码方式,评估不同的语言模型在处理语法结构和多词表达方面的泛化能力,解决了语言模型黑盒且缺乏可解释性的问题。
May, 2023
本文介绍了在西班牙语语料库上预训练的著名编码器-解码器架构——BART、T5和BERT2BERT风格模型。通过对各种序列到序列任务(包括摘要、改写和生成式问答)的综合评估,我们发现所有模型的性能竞争力,其中BART和T5在所有评估任务中表现最好。此外,我们还将所有模型公开提供给研究社区,促进西班牙语语言处理领域的未来探索和发展。
Sep, 2023
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在GitHub和Hugging Face上供社区使用和进一步开发。
Jan, 2024
通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM,在多个下游任务中,Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。
Feb, 2024
为了促进葡萄牙语的神经编码,本论文提出了一些基础的编码器模型,这些模型是为这种语言开发的大型语言模型稀缺的生态系统的扩展,而且都是免费开放的,可以用于任何目的,包括研究和商业用途。此外,我们还获得了对其生态系统有意义的进一步结果,即基于SuperGLUE基准的葡萄牙语新数据集,我们也进行了开放分发。
Mar, 2024
利用乌克兰数据集对开源Gemme和Mistral语言模型进行微调,以提高其语言能力,并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见,促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的NLP研究与发展,同时提出乌克兰知识与指令数据集(UKID)以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展,并凸显了AI中语言多样性的重要性,对文化保护、教育和全球AI的扩展至关重要。最终,我们呼吁实现一种包容性的技术未来,使AI能够在所有语言,特别是目前少数代表的语言中有效地进行交流。
Apr, 2024
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024