IT5: 面向意大利语理解与生成的大规模文本对文本预训练
本文介绍了mT5,这是T5的多语言变体,基于新的基于Common Crawl的数据集进行预训练,涵盖101种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零-shot设置中防止“意外翻译”。
Oct, 2020
本文介绍了一个多语言序列到序列的自然语言模型DOCmT5,采用大规模平行文档进行预训练和一种名为DrMT的文档重排机器翻译方法,通过在各种文档级处理任务上进行,包括文档翻译、跨语言摘要等,达到了业内领先的结果。
Dec, 2021
该研究针对资源较少的斯洛文尼亚语,训练了两个不同尺寸的T5类型序列到序列模型,并分析其在11个任务中的表现,结果显示SloT5模型在分类任务上大多落后于单语斯洛文尼亚SloBERTa模型,但在生成性任务上很有用。
Jul, 2022
本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型,通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较,结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达58%,而且所得模型需要更少的内存,加载速度更快,推理时间更快。
Feb, 2023
本文介绍了在西班牙语语料库上预训练的著名编码器-解码器架构——BART、T5和BERT2BERT风格模型。通过对各种序列到序列任务(包括摘要、改写和生成式问答)的综合评估,我们发现所有模型的性能竞争力,其中BART和T5在所有评估任务中表现最好。此外,我们还将所有模型公开提供给研究社区,促进西班牙语语言处理领域的未来探索和发展。
Sep, 2023
通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM,在多个下游任务中,Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。
Feb, 2024
我们介绍了基于NLI的多语言句子嵌入模型m-ST5,通过扩展现有的单语模型Sentence T5以低秩适应(LoRA)技术成功将模型参数规模扩展到57亿,并通过实验证实方法优于基于NLI的先前方法,尤其是对资源较少或与英语相似性较低的语言受益更多。
Mar, 2024
为了推进意大利语的自然语言处理,我们引入了一种基于新型Meta LLaMA-3模型的最先进的大型语言模型(LLM): LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调(SFT)技术对原始的8B参数指导调整模型进行了微调,以提高其性能。同时,我们使用动态偏好优化(DPO)过程对模型进行了优化,以确保生成内容与高质量答案一致。这一模型在文本补全、零样本分类和上下文理解等多种任务中表现出色,经过对意大利语和英语标准基准的广泛评估,结果非常出色。该模型可以在HuggingFace hub上免费获取,并且我们的GitHub存储库中有使用示例。
May, 2024
本文介绍了继续预训练 T5 模型的研究,特别是在葡萄牙语方面的应用及其对下游任务的影响,通过实验和优化配置获得了令人满意的结果。
Jun, 2024
本研究解决了在专业领域和低资源语言中标注数据有限的问题,特别是意大利的技术和官僚术语。通过采用较小的领域特定编码器模型及提示技术,该论文展示了这些模型在文档分类和实体识别等任务中的应用潜力,特别是在缺乏领域资源的情况下取得显著成果,进而推动了意大利语模型在特定场景中的研究和应用。
Jul, 2024