关于利用翻译数据集评估多语言组合泛化能力

ACLJun, 2023

关于利用翻译数据集评估多语言组合泛化能力

On Evaluating Multilingual Compositional Generalization with Translated Datasets

Zi Wang, Daniel Hershcovich

TL;DR通过翻译 MCWQ 数据集，我们证明不同语言具有不同的组合泛化能力，同时多语种模型仍然难以实现跨语言组成泛化。

Abstract

compositional generalization allows efficient learning and human-like inductive biases. Since most research investigating compositional generalization in nlp is done on English, important questions remain underex

compositional generalization nlp cross-lingual semantic parsing multilingual models

发现论文，激发创造

基于维基数据的多语义解析中的构成性泛化

本篇文章提出了一种基于 Wikidata 的多语言、平行的问句对数据集，即 Multilingual Compositional Wikidata Questions（MCWQ），用于分析语义解析器在英语、希伯来语、卡纳达语和汉语中的组合泛化能力。结果表明，即使使用最先进的预训练多语言编码器，跨语言组合泛化能力也无法实现，文章的方法、数据集和结果将有助于未来关于具有更现实和多样化背景下语义解析的研究。

Aug, 2021

神经机器翻译中的结构泛化评估

本研究探讨了机器翻译和语义解析中的复合通用性问题，并发现神经机器翻译模型在句法结构的通用性上存在困难，而语义解析和机器翻译具有不同的性能趋势。

Jun, 2024

关于神经机器翻译的组合泛化问题

本论文研究了现代神经机器翻译模型的组成泛化问题，构建了包含 216k 个干净和一致的语句对的基准数据集 CoGnition，并通过复合翻译误差率定量分析了各种因素的影响，然后展示了神经机器翻译模型在组成泛化方面的表现欠佳，尽管在传统指标下表现出色。

May, 2021

使用基于分布的组合性评估方法评估机器翻译的组合推广能力

开发一个基于分布的合成性评估框架，利用 Europarl 翻译语料库创建训练集和测试集，测试神经机器翻译系统在未训练依赖关系上的能力。

Nov, 2023

自然语言复合性之悖论：基于神经机器翻译的案例研究

本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响，结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。

Aug, 2021

测量组合泛化能力：一种基于真实数据的综合方法

本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集，并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法，研究表明现有的机器学习方法在复合语言理解上处于局限性表现，且都表现出惊人强的负相关性，研究结果可应用于构建和优化大规模自然语言处理应用系统。

Dec, 2019

基于语言模型的组合概括

通过扩展语义解析的组成概括工作，我们为生成与知识图谱配对的自然语言问题开发了一种方法，以在不受限于语言模型权重隐式编码的信息的同时，对这些模型从知识图谱中学习和概括程度进行控制性评估，我们发现现有的将语言模型与知识图谱组合的方法在未见过长度序列和新组合的基础组件方面存在泛化问题，因此，我们希望我们的工作和发布的数据集能够促进未来研究并探索如何更好地将语言模型与结构化知识表示相结合的方法。

Jun, 2024

大型语言模型中面向组合通用语义解析的研究综述

本文对最近在分析、方法和评估方案上的进展进行了综述，为从业者和研究人员在这一领域提供了一个起点。

Apr, 2024

元学习以复合泛化为目标

自然语言是组成的，神经网络在组成泛化方面表现差，自相似度驱动的元学习可提高自然语言处理模型的组成泛化能力。

Jun, 2021

评估结果的有效性：评估组成性基准测试的一致性

近年来，NLP 模型取得了巨大的进展，尤其是通过这方面的大量数据集进行性能评估。然而，有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现，这些数据集根据 8 种组合分割策略进行划分，总计有 18 种组合泛化划分。我们的结果表明：i) 尽管所有数据集都设计用于评估组合泛化能力，但它们对建模方法的排名是不同的；ii) 由人类生成的数据集彼此之间更加一致，而与合成数据集之间的一致性较差；iii) 通常来说，数据集是否来自相同源头对于得到的模型排名的预测性更强，而是否保持相同的组合性解释则次之；iv) 数据中使用的词汇项目可以极大地影响结论。总的来说，我们的结果表明，在评估流行的评估数据集是否测量其意图时还有很多工作要做，建立更严格的评估标准可能有助于该领域的发展。

Oct, 2023