西班牙语语言模型评估中得到的经验教训
该研究提出了一种基于 BERT 的专门针对西班牙语数据进行预训练的语言模型,并收集了几个专门针对西班牙语的任务,通过对预训练模型进行微调,在大多数任务上取得了比其他基于 BERT 的多语种预训练模型更好的结果,并在其中一些任务上取得了新的最优成果。
Aug, 2023
本文介绍了在西班牙语语料库上预训练的著名编码器 - 解码器架构 ——BART、T5 和 BERT2BERT 风格模型。通过对各种序列到序列任务(包括摘要、改写和生成式问答)的综合评估,我们发现所有模型的性能竞争力,其中 BART 和 T5 在所有评估任务中表现最好。此外,我们还将所有模型公开提供给研究社区,促进西班牙语语言处理领域的未来探索和发展。
Sep, 2023
本文介绍训练两个三语 Bert 模型 —— 一种适用于芬兰语、爱沙尼亚语和英语的 FinEst BERT 以及一种适用于克罗地亚语、斯洛文尼亚语和英语的 CroSloEngual BERT,并在多种单语和跨语言情况下使用 BERT 和 XLM-R 作为基线评估它们在多个下游任务上的性能,包括命名实体识别、词性标注和依存句法分析,结果表明这些模型能够提高大多数情况下所有任务的结果。
Jun, 2020
针对临床领域的西班牙语编码器语言模型,我们调查了 17 个主要针对临床任务的语料库的贡献,并列出了最相关的西班牙语言模型和西班牙临床语言模型。我们对这些模型进行了全面比较,通过在一组精选的语料库上进行基准测试,以找到性能最佳的模型;总共针对本研究进行了 3000 多个模型的微调。所有测试的语料库和最佳模型都以可访问的方式公开,以便独立团队可以复现结果或在未来创建新的西班牙临床语言模型时进行挑战。
Aug, 2023
本研究集中关注在 Catalan 语言,通过构建一个中等大小的单语言模型并进行完整的评估,成功地通过多样的任务比较,充分证明了其优越性,从而证实了在数据充足的情况下,单语言特定模型的效果能够超越多语言模型。
Jul, 2021
本文介绍了针对西班牙语的生物医学和临床语言模型,通过实验不同的预训练选择和测试领域数据,生成可用于实际临床数据的模型,并通过对比 NER 任务,证实了进行特定领域的预训练对提高下游任务性能非常重要。
Sep, 2021
通过构建两个评估基准(Spanish SentEval 和 Spanish DiscoEval),我们评估了最近的预先训练的西班牙语语言模型的功能和局限性,这些基准包括大量现有的和新构建的数据集,以解决来自各种领域的不同任务,并发现在对话评估任务的情况下,多语言模型 mBERT 通常提供比仅用西班牙语文档进行训练的模型更丰富的潜在表示。我们希望我们的贡献将激发一种更公正,更可比以及更不繁琐的方式来评估未来的西班牙语语言模型。
Apr, 2022
本篇论文探讨使用大型巴斯克语语料库训练的 FastText 词向量、FLAIR 和 BERT 语言模型,在话题分类、情感分类、词性标注和实体识别等下游 NLP 任务中的表现优于公开版本,从而在这些任务中取得了最新的技术成果,所有标准和模型都可公开获取。
Mar, 2020
本文研究了自然语言处理中的 BERT 模型及其多语言版本 (mBERT),比较并探究了语言特定的 BERT 模型与 mBERT 在架构、数据领域和任务上的差异和共性,为读者提供了一个直观的综述和交互式展示网站。
Mar, 2020
通过研究多语言掩码语言建模问题,我们阐述了若干因素,即为何这些模型在跨语言转移方面如此有效,并证明了即使单语料库之间没有共享词汇,也可以进行转移,只需在多语言编码器顶层存在一些共享参数。同时,我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐,这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模,这些对称性似乎是在联合训练过程中自动发现和对齐的。
Nov, 2019