XNLIeu:巴斯克语的跨语言自然语言推理数据集
本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集,包括 XNLI 测试和开发集,以改进原始 XNLI 数据集,并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理,同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言(如斯瓦希里和乌尔都语)中提高性能的可能性。
Jan, 2023
本文介绍了 IndicXNLI,一个 NLI 数据集,用于 11 种印度语言的跨语言转移技术的分析,研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。
Apr, 2022
本文提出将 SNLI 风格自然语言推断的研究推向多语言评估,为阿拉伯语,法语,西班牙语和俄语提供测试数据,并使用跨语言词嵌入和机器翻译构建基线系统,最终系统的平均准确率超过了 75%,并着重实现了多语言推断的进一步研究。
Apr, 2017
我们提出了 IndoNLI 数据集,这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议,收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明,在我们的数据中,XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能(13.4%的准确度差距),表明此测试集具有特别的挑战性。此外,我们的分析显示,我们的专家标注数据比众包标注数据更加多样化,注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。
Oct, 2021
本文介绍了 SciNLI,它是一个用于 NLU 的大型 NLI 数据集,旨在捕捉科学文本中的规范性,并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明,SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18%的 Macro F1 得分和 78.23%的准确度,表明还有很大的改进空间。
Mar, 2022
研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力,并基于 17 个中文挑战任务对其性能进行测试。研究发现,跨语言模型在训练时使用英语和高质量的单语 NLI 数据(OCNLI)通常表现最好,而自动翻译资源则会影响其性能。
Jun, 2021
本文提出了第一个用于混合语言自然语言推理的数据集,其中使用来自印地语电影和双语人士的双语代码混合作为前提和假设,并使用标准的 mBERT 算法对数据集进行了评估。
Apr, 2020
我们提出了 Meta4XNLI,这是一个包含西班牙语和英语隐喻注释的新型并行数据集,用于隐喻检测和解释的任务。通过利用我们提出的语料库,我们通过一系列的单语和跨语言实验来研究语言模型对隐喻的识别和理解能力。我们审查了结果并进行了错误分析,以便理解这些非字面表达如何影响模型的性能。此外,平行数据为研究这些语言之间的隐喻可转移性和翻译对多语言注释资源发展的影响提供了许多潜在机会。
Apr, 2024
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019