突卡诺：推进葡萄牙语神经文本生成

Nov, 2024

突卡诺：推进葡萄牙语神经文本生成

Tucano: Advancing Neural Text Generation for Portuguese

Nicholas Kluge Corrêa, Aniket Sen, Sophia Falk, Shiza Fatimah

TL;DR本研究解决了葡萄牙语在神经文本生成领域资源不足的问题，通过开发GigaVerbo，一个包含2000亿个去重葡萄牙语文本的语料库，推动未来语言模型的发展。研究表明，使用新的解码器-变换器模型Tucano在多个基准测试中的表现超过了现有的同类模型，强调了现有评估方法在葡萄牙语生成模型性能评估中的局限性。

Abstract

Significant advances have been made in natural language processing in recent years. However, our current Deep Learning approach to Language Modeling requires substantial resources in terms of data and computation

发现论文，激发创造

神经语言生成：公式化，方法与评估

本调查综述了自然语言生成的定义、应用、方法及评估，提供了一种神经网络生成模型的信息总览。

Jul, 2020

文本生成的预训练语言模型：综述

本文综述了预训练语言模型在文本生成方面的主要进展，包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言，该综述提供了相关研究的综合和指引。

May, 2021

评估语言模型中的语言推广能力：面向巴西葡萄牙语的数据集

本研究提出了一种评估方法，针对用于巴西葡萄牙文的语言模型，通过固定的语言格式，考察语言信息的编码方式，评估不同的语言模型在处理语法结构和多词表达方面的泛化能力，解决了语言模型黑盒且缺乏可解释性的问题。

May, 2023

序列到序列的西班牙语预训练语言模型

本文介绍了在西班牙语语料库上预训练的著名编码器-解码器架构——BART、T5和BERT2BERT风格模型。通过对各种序列到序列任务（包括摘要、改写和生成式问答）的综合评估，我们发现所有模型的性能竞争力，其中BART和T5在所有评估任务中表现最好。此外，我们还将所有模型公开提供给研究社区，促进西班牙语语言处理领域的未来探索和发展。

Sep, 2023

加利西亚语言中的对话：一种针对少数语言的大型语言模型

该研究介绍了两种新的资源来增强加利西亚语的自然语言处理，通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune，为低资源语言提供了多语言模型的研究，并探索了在资源有限的情况下，如何利用相关语言（例如葡萄牙语）来生成连贯的文本。

Nov, 2023

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在GitHub和Hugging Face上供社区使用和进一步开发。

Jan, 2024

GlórIA - 一种面向葡萄牙语的生成式和开放性大型语言模型

通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM，在多个下游任务中，Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。

Feb, 2024

促进葡萄牙语开放神经编码器生态系统与Albertina PT*系列的发展

为了促进葡萄牙语的神经编码，本论文提出了一些基础的编码器模型，这些模型是为这种语言开发的大型语言模型稀缺的生态系统的扩展，而且都是免费开放的，可以用于任何目的，包括研究和商业用途。此外，我们还获得了对其生态系统有意义的进一步结果，即基于SuperGLUE基准的葡萄牙语新数据集，我们也进行了开放分发。

Mar, 2024

从字节到俄罗斯优势: 优化吉玛和米斯特拉用于乌克兰语表示

利用乌克兰数据集对开源Gemme和Mistral语言模型进行微调，以提高其语言能力，并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见，促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的NLP研究与发展，同时提出乌克兰知识与指令数据集（UKID）以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展，并凸显了AI中语言多样性的重要性，对文化保护、教育和全球AI的扩展至关重要。最终，我们呼吁实现一种包容性的技术未来，使AI能够在所有语言，特别是目前少数代表的语言中有效地进行交流。

Apr, 2024

用于加利西亚语的开放式生成大型语言模型

这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Jun, 2024