Nov, 2024

突卡诺:推进葡萄牙语神经文本生成

TL;DR本研究解决了葡萄牙语在神经文本生成领域资源不足的问题,通过开发GigaVerbo,一个包含2000亿个去重葡萄牙语文本的语料库,推动未来语言模型的发展。研究表明,使用新的解码器-变换器模型Tucano在多个基准测试中的表现超过了现有的同类模型,强调了现有评估方法在葡萄牙语生成模型性能评估中的局限性。