X-PARADE: 跨语言文本蕴涵和段落信息差异

Sep, 2023

X-PARADE: 跨语言文本蕴涵和段落信息差异

X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs

Juan Diego Rodriguez, Katrin Erk, Greg Durrett

TL;DRX-PARADE 是第一个跨语言段落级别信息差异分析数据集，研究了不同语言之间的信息一致性问题，并探索了跨语言 NLI 的可能方法，结果表明各种方法都无法达到人类的表现水平。

Abstract

Understanding when two pieces of text convey the same information is a goal touching many subproblems in NLP, including textual entailment and fact-checking. This problem becomes more complex when those two pieces of text are in different languages. Here, we introduce →

cross-lingual x-parade paragraph-level analysis information divergences textual entailment

发现论文，激发创造

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

在没有注释的情况下识别平行文本中的语义分歧

本研究利用深度神经网络模型自动检测双语并行句对中的语义差异，该模型能够在无需任何手动注释的情况下训练任何并行语料库，我们显示出我们的语义模型比基于单词对齐的表层特征的模型更准确地检测到差异，并且发现这些差异对神经机器翻译至关重要。

Mar, 2018

CCAligned：大规模跨语言网页文档对集合

利用 URL 标签指导对网络文章进行跨语言文档对齐，构建了一个大规模的网络文档数据集，使用该数据集通过基线模型进行文本内容的对齐，最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值，旨在促进跨语言 NLP 研究的发展。

Nov, 2019

跨语言释义识别

通过对比式编码器模型在多语言环境下进行训练，实现检测多语言环境中的困难释义，得到可用于语义搜索等多种任务的嵌入向量，并在下游任务中评估模型性能和嵌入向量质量，与当前最先进的交叉编码器相比，在所选择的数据集中只有 7-10% 的最小相对下降，同时保持嵌入向量的良好质量。

Jun, 2024

PARADISE：利用平行数据进行多语言序列到序列预训练

该研究介绍了 PARADISE 方法，通过将多语言字典和平行语料库用于训练模型的噪声序列中，取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。

Aug, 2021

PARADE: 面向计算机科学领域知识的近义识别新数据集

本文提出了一个名为 PARADE 的新型基准数据集，用于测试包含不同领域专业知识的文本相似性鉴别模型。结果表明，即使是最先进的神经网络模型以及普通人类标注者在此数据集上的表现也十分糟糕。PARADE 可以为需要加入专业领域知识的模型提供一个资源。我们公开了数据集和代码。

Oct, 2020

跨语言摘要的自动数据检索

英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要，以帮助数据获取。我们通过分析数据并提出方法，将文章与视频描述匹配为文档和摘要对，并提出了过滤方法以确保摘要的正确性。此外，我们提供了 28583 个单语和跨语种的文章 - 摘要对，并在收集的数据上建立和分析了多个基准，并报告了错误分析。

Dec, 2023

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

PAWS-X: 用于语义相似度识别的跨语言对抗数据集

PAWS-X 是一个新的数据集，由六种不同类型的语言中的 23,659 个人类翻译评估成对组成，并提供了三个不同容量模型的基线数字，这些模型具有捕捉非本地上下文和句子结构的不同能力，并使用不同的多语种训练和评估模式。

Aug, 2019

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022