西班牙语句子表示的评估基准

Apr, 2022

Evaluation Benchmarks for Spanish Sentence Representations

Vladimir Araujo, Andrés Carvallo, Souvik Kundu, José Cañete, Marcelo Mendoza...

TL;DR通过构建两个评估基准（Spanish SentEval 和 Spanish DiscoEval），我们评估了最近的预先训练的西班牙语语言模型的功能和局限性，这些基准包括大量现有的和新构建的数据集，以解决来自各种领域的不同任务，并发现在对话评估任务的情况下，多语言模型 mBERT 通常提供比仅用西班牙语文档进行训练的模型更丰富的潜在表示。我们希望我们的贡献将激发一种更公正，更可比以及更不繁琐的方式来评估未来的西班牙语语言模型。

Abstract

Due to the success of pre-trained language models, versions of languages other than English have been released in recent years. This fact implies the need for resources to evaluate these models. In the case of Spanish, there are few ways to systematically assess the models' quality. In

pre-trained language models spanish senteval spanish discoeval discourse evaluation tasks mbert

发现论文，激发创造

语篇感知句子表示的评估基准和学习标准

本文提出 DiscoEval 测试套件，以评估句子表示是否包含更广泛的上下文信息，并使用来自维基百科的自然注释构建能够建模语篇的句子编码器的各种训练目标。在 DiscoEval 和其他句子评估任务上对经过预训练的句子编码器进行了基准测试，并表明这些训练目标有助于在文档结构中编码不同的信息方面。此外，BERT 和 ELMo 表现出良好的性能，并显示出不同特性的单个隐藏层。

Aug, 2019

西班牙预训练 BERT 模型与评估数据

该研究提出了一种基于 BERT 的专门针对西班牙语数据进行预训练的语言模型，并收集了几个专门针对西班牙语的任务，通过对预训练模型进行微调，在大多数任务上取得了比其他基于 BERT 的多语种预训练模型更好的结果，并在其中一些任务上取得了新的最优成果。

Aug, 2023

Disco-Bench: 一种考虑语篇的语言模型评估基准

该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型，该模型包含 9 个文献领域的测试集，涵盖了许多超出了跨句子属性的问题。

Jul, 2023

西班牙语语言模型评估中得到的经验教训

本文提供了一份全面的研究报告，比较了用于西班牙语的语言模型，报告显示：先前被忽略的大型跨语言模型比单语模型表现更好，单语模型的结果并不是确定性的，需要进一步研究语料库大小、质量和预训练技术等因素。

Dec, 2022

SentEval: 通用句子表示的评估工具

SentEval 是一个用于评估通用句子表示质量的工具包，包括二元和多类分类、自然语言推理和句子相似性等任务，并提供用于下载和预处理数据集的脚本和易于使用的界面来评估句子编码器，旨在提供更公正、 less-burdensome 和更集中的评估句子表示的方法。

Mar, 2018

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

SeaEval 用于多语言基础模型：从跨语言对齐到文化推理

SeaEval 是一个多语种基础模型的评估基准，研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为，许多模型仍存在曝光偏差，对于根源于事实、科学和常识知识的问题，多语种查询的一致性响应预期是相同的，然而大多数模型在这些查询上令人意外地表现出不一致的性能，需要更具有泛化能力的语义表示和增强的多语种上下文化能力。SeaEval 可用于多语种和文化情景下的更全面的调查和评估。

Sep, 2023

TweetEval: 微博分类的统一基准和比较评估

本文提出了一个新的评估框架（TweetEval），由七个异构 Twitter-specific 分类任务组成，并提供了一组强基准作为起点，并比较了不同的语言建模预训练策略，初步实验表明使用现有的通用语言模型预训练，然后在 Twitter 集上继续训练是很有效的。

Oct, 2020

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

FLORES-101 低资源和多语言机器翻译评估基准

本文介绍了 FLORES-101 评估基准，该数据集由 3001 句从英文维基百科中提取出来的涵盖各种主题和领域的句子，在 101 种语言中由专业翻译人员进行翻译。该数据集可用于评估低资源语言和多对多多语言翻译系统的模型质量。

Jun, 2021