维果茨基距离：用于基准任务相似性度量

Feb, 2024

维果茨基距离：用于基准任务相似性度量

Vygotsky Distance: Measure for Benchmark Task Similarity

Maxim K. Surkov, Ivan P. Yamshchikov

TL;DR评估在现代自然语言处理中起着重要作用。该论文介绍了一种理论工具和一种实际算法，用于计算基准任务之间的相似性，称为 “Vygotsky 距离”。该相似性度量的核心思想是基于给定任务上 “学生” 的相对表现，而不是任务本身的特性。在维格斯基距离接近的两个任务上，模型往往具有类似的相对性能。因此，通过了解任务之间的维格斯基距离，可以显著减少评估任务的数量，同时保持高验证质量。包括 GLUE、SuperGLUE、CLUE 和 RussianSuperGLUE 在内的各种基准测试的实验表明，至少可以将大多数自然语言处理基准测试的任务数量减少 40%。最重要的是，维格斯基距离还可以用于验证新任务，从而增加未来自然语言处理模型的泛化能力。

Abstract

evaluation plays a significant role in modern natural language processing. Most modern nlp benchmarks consist of arbitrary sets of tasks that neither guarantee any generalization potential for the model once appl

evaluation nlp benchmarks vygotsky distance similarity measure task reduction

发现论文，激发创造

使用词相似性任务评估词嵌入存在的问题

使用词相似度任务作为词向量内在评估的代理，但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题，并总结已有的解决方案，最后指出这种方法不具可持续性，需要进一步研究词向量的评估方法。

May, 2016

数据相似性无法充分解释语言模型的性能

大型语言模型的性能在许多下游任务上都很高，但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较，测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现，在其他基准测试中，相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。

Nov, 2023

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018

概念语言相似性的研究：比较与评估

本研究旨在将语言学的特性纳入到自然语言处理（NLP）中，通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。

May, 2023

NLP 任务的概念和性能测量：需要双方共同努力

本研究通过度量建模工具，提出了对自然语言处理的 Benchmarks 的不同概念化方式和性能测量操作化的两种类型的不同意。并通过元分析和从业者的调查，揭示了 Benchmarks 的不足之处，为构建 Benchmarks 提出了框架。

May, 2023

使用相似度度量选择 NER 的预训练数据

本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性，并在超过 30 个数据对上展示这些方法是好的预测器。结果表明，预训练的语言模型比预训练的词向量更有效，更可预测，但是预训练的词向量在预训练数据不相似时表现更好。

Apr, 2019

用于计算语义相似度的分类和神经嵌入方法的评估

本论文探讨了计算语义相似度的不同方法，比较了分类和分布式语义相似度的不同特点，提出了类别相似度建模的三种加权因素，发现在不同词频、多义性和相似度强度范围内存在语义相似度计算巨大差距。

Sep, 2022

GLUECons：一种用于约束条件下学习的通用基准

本文介绍了一项新的基准测试，共包含九个任务涵盖自然语言处理和计算机视觉等领域，该测试旨在系统评估外部知识约束整合方法的效果，通过一组扩展的评估标准分析各种模型的性能，为相关研究挑战提供了框架和指导。

Feb, 2023

语言距离与国家英语能力的关系

本文提出一种基于深度神经网络技术利用多语言预训练语言模型（如 BERT）中嵌入空间的词分布测量语言之间语义差异的解决方案，并通过实证考察验证了该方法对于解释各国英语能力在 TOEFL iBT 中一致变异的有效性，结果表明语言距离对国家的英语能力具有负面影响，在语言的生产方面如说和写的子技能方面影响更显著。另外，我们对未来的研究方向提出具体的建议。

Nov, 2022

利用语言相似性进行零样本跨语言转移语言选择

研究使用语言相似性来选择最佳的迁移语言，从而提高在情感分析、命名实体识别和依赖解析等不同自然语言处理任务中的跨语言迁移性能。

Jan, 2023