关于利用翻译数据集评估多语言组合泛化能力
本篇文章提出了一种基于 Wikidata 的多语言、平行的问句对数据集,即 Multilingual Compositional Wikidata Questions(MCWQ),用于分析语义解析器在英语、希伯来语、卡纳达语和汉语中的组合泛化能力。结果表明,即使使用最先进的预训练多语言编码器,跨语言组合泛化能力也无法实现,文章的方法、数据集和结果将有助于未来关于具有更现实和多样化背景下语义解析的研究。
Aug, 2021
本论文研究了现代神经机器翻译模型的组成泛化问题,构建了包含 216k 个干净和一致的语句对的基准数据集 CoGnition,并通过复合翻译误差率定量分析了各种因素的影响,然后展示了神经机器翻译模型在组成泛化方面的表现欠佳,尽管在传统指标下表现出色。
May, 2021
开发一个基于分布的合成性评估框架,利用 Europarl 翻译语料库创建训练集和测试集,测试神经机器翻译系统在未训练依赖关系上的能力。
Nov, 2023
本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响,结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。
Aug, 2021
本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集,并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法,研究表明现有的机器学习方法在复合语言理解上处于局限性表现,且都表现出惊人强的负相关性,研究结果可应用于构建和优化大规模自然语言处理应用系统。
Dec, 2019
通过扩展语义解析的组成概括工作,我们为生成与知识图谱配对的自然语言问题开发了一种方法,以在不受限于语言模型权重隐式编码的信息的同时,对这些模型从知识图谱中学习和概括程度进行控制性评估,我们发现现有的将语言模型与知识图谱组合的方法在未见过长度序列和新组合的基础组件方面存在泛化问题,因此,我们希望我们的工作和发布的数据集能够促进未来研究并探索如何更好地将语言模型与结构化知识表示相结合的方法。
Jun, 2024
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组合分割策略进行划分,总计有 18 种组合泛化划分。我们的结果表明:i) 尽管所有数据集都设计用于评估组合泛化能力,但它们对建模方法的排名是不同的;ii) 由人类生成的数据集彼此之间更加一致,而与合成数据集之间的一致性较差;iii) 通常来说,数据集是否来自相同源头对于得到的模型排名的预测性更强,而是否保持相同的组合性解释则次之;iv) 数据中使用的词汇项目可以极大地影响结论。总的来说,我们的结果表明,在评估流行的评估数据集是否测量其意图时还有很多工作要做,建立更严格的评估标准可能有助于该领域的发展。
Oct, 2023