XferBench: 一种基于数据的紧迫语言基准

Jul, 2024

XferBench: 一种基于数据的紧迫语言基准

XferBench: a Data-Driven Benchmark for Emergent Language

Brendon Boldt, David Mortensen

TL;DR我们引入了一个用于评估利用数据驱动方法检验新兴语言整体质量的基准，并使用深度学习框架将新兴语言与人类语言的相似性作为其 "质量" 的概念进行解释。通过将新兴语言用作深度学习下游自然语言处理任务的预训练数据，我们通过衡量下游性能来衡量新兴语言的质量。我们将此基准实现为一个易于使用的 Python 包，只需要一个新兴语言表达的文本文件进行评估。最后，我们通过使用人类、合成和新兴语言基准来经验性地测试该基准的有效性。

Abstract

In this paper, we introduce a benchmark for evaluating the overall quality of emergent languages using data-driven methods. Specifically,

benchmark emergent languages data-driven methods deep learning framework nlp tasks

发现论文，激发创造

DevBench：一个用于语言学习的多模态发展基准

通过构建模型以较少的、多模态自然数据进行训练，并将其与行为数据进行直接比较，我们介绍了 DevBench，一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中，模型在准确性和回应模式上与人类表现出差异。通过比较模型与人类在任务上的表现，我们发现在语言发展过程中模型与人类的差异，并提供了改进语言模型的切入点。

Jun, 2024

通过语料库迁移将新兴语言和自然语言链接起来

本研究提出使用预训练在不同语言上的涌现语料库来解决语言涌现问题并在模拟自然语言下游任务的效果，评估不同指标识别涌现语言的可转移性。

Mar, 2022

Disco-Bench: 一种考虑语篇的语言模型评估基准

该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型，该模型包含 9 个文献领域的测试集，涵盖了许多超出了跨句子属性的问题。

Jul, 2023

衡量统计语言模型进展的十亿词基准

该论文提出了一种新的基准语料库，用于衡量统计语言建模的进展，探讨了多种语言模型的性能表现，通过使用长短时记忆模型，降低模型复杂度来改善模型性能，实现了对语言模型的快速评估，并提出了相应的语言模型技巧，解决了语言建模中存在的困难。

Dec, 2013

GlobalBench：自然语言处理全球进展基准测试

本文介绍了一个名为 GlobalBench 的多语言测试集，主要用于跟踪和激励全球对于不平衡的 NLP 系统表现以及对于被较少关注的语言技术的开发。GlobalBench 关注的不仅是准确度，同时还监测其涵盖的各种语言的效用和平等性，识别最需要开发的语言，并奖励相关研究。至今，GlobalBench 覆盖了 190 种语言的 966 个数据集，并有 1128 个系统提交，跨越 62 种语言。

May, 2023

StreamBench：基于连续改进的语言代理基准测试

大语言模型代理，连续改进，StreamBench，在线学习环境，自适应人工智能系统。

Jun, 2024

DrBenchmark：法国生物医学领域的大型语言理解评估基准

首次公开提供的法语生物医学语言理解基准 DrBenchmark，评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能，以及英语特定的 MLMs 来评估它们的跨语言能力。

Feb, 2024

紧急通讯针对少样本机器翻译的预训练

采用新颖的无监督知识转移方式，在缺乏语言数据时通过基于图像的指称游戏进行神经网络预训练，成功地提高了 few-shot 学习中的机器翻译效果，同时为评估人造语言的性质提供了基于表现的外部评估途径。

Nov, 2020

在资源匮乏的语言中建立文本分类基线

本文旨在解决低资源语言菲律宾文的文本分类问题，并提供了两个以往未发布的数据集作为基准，使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试，以评估模型在不同训练集数量下的表现降低速度，并释放所有模型和数据集供研究社区使用。

May, 2020

LAB-Bench: 测量生物研究语言模型的能力

评估自然语言处理模型在科学研究中的能力，引入了 Language Agent Biology Benchmark (LAB-Bench)，并且报告了与人类专家生物学研究者进行比较的结果。

Jul, 2024