PAWS-X: 用于语义相似度识别的跨语言对抗数据集

EMNLPAug, 2019

PAWS-X: 用于语义相似度识别的跨语言对抗数据集

PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification

Yinfei Yang, Yuan Zhang, Chris Tar, Jason Baldridge

TL;DRPAWS-X 是一个新的数据集，由六种不同类型的语言中的 23,659 个人类翻译评估成对组成，并提供了三个不同容量模型的基线数字，这些模型具有捕捉非本地上下文和句子结构的不同能力，并使用不同的多语种训练和评估模式。

Abstract

Most existing work on adversarial data generation focuses on English. For example, PAWS (Paraphrase Adversaries from Word Scrambling) consists of challenging English paraphrase identification pairs from Wikipedia and Quora. We remedy this gap with →

adversarial data generation paws-x multilingual pre-training non-local context sentence structure

发现论文，激发创造

PAWS：单词混淆的释义对抗

该论文介绍了一个名为 PAWS 的新数据集，其包含具有高词汇重叠的 108,463 个良好构造的释义对和非释义对，由受控词汇交换和回译产生，并由人类评定其流利度和释义；在现有数据集上表现出色的模型对于 PAWS 数据表现不佳。然而，将 PAWS 训练数据用于这些模型可以提高其准确性为 85％，同时保持对现有任务的性能。相比之下，无法捕获非局部上下文信息的模型即使有 PAWS 训练示例也会失败；因此，PAWS 为推动更好地利用结构、上下文和成对比较的模型的进一步进展提供了一个有效的工具。

Apr, 2019

PAXQA: 在训练规模上生成跨语言问答实例

本文提出了一种利用现有平行语料库进行间接监督的跨语言问答（QA）的合成数据生成方法，并使用词汇约束的机器翻译提高翻译质量，生成了跨越 4 种语言的 662K QA 样例数据集，并通过消融研究证明了该方法相对于自动单词对齐的噪声比较稳健。

Apr, 2023

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

X-RiSAWOZ：高质量端到端多语对话数据集和少样本代理

本研究的目的是降低使用新語言創建數據集的成本，並通過提出一種使用機器翻譯和後編輯方法的工具集，實現建立高質量多語言對話代理的目的。

Jun, 2023

跨语言产品问答：12 种语言

该研究致力于针对电子商务应用中需要支持多语言的情况，建立一种跨语言的产品问答 (PQA) 系统，为了实现这一目标，它提出了一个包括 12 种语言在九个领域中的大规模标注跨语言 PQA 数据集，并评估了包括机器翻译在内的多种方法。作者强调，领域内的数据对跨语言排序任务非常重要，而候选的排序通常更喜欢基于运行时翻译的方法，而答案的生成更倾向于使用多语言方法，但是英语和跨语言测试集之间仍存在明显的性能差距。

May, 2023

LAMPAT：使用对抗训练进行多语言改写的低秩调整

用低阶适配的对抗性训练方法提出了第一个无监督多语言释义模型 LAMPAT，实验证明该方法不仅在英文上效果好，还可以推广到看不见的语言。

Jan, 2024

X-PARADE: 跨语言文本蕴涵和段落信息差异

X-PARADE 是第一个跨语言段落级别信息差异分析数据集，研究了不同语言之间的信息一致性问题，并探索了跨语言 NLI 的可能方法，结果表明各种方法都无法达到人类的表现水平。

Sep, 2023

基于隐式众包数据采集的波斯语释义数据集

本文介绍了 PerPaDa，这是一个从用户输入中收集的波斯语近义词语料库，旨在帮助检测抄袭。该语料库包含 2446 个波斯语句子的大量近义词和原句，使用了一些启发式方法来排除不符合标准的句子，相对于类似数据集，该数据集更大且更无偏见。

Jan, 2022

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

MAUPQA：大规模自动生成的波兰问答数据集

本文探讨了自动收集弱标签数据集的方法，并展示了它们对神经检索模型的性能的影响。通过本文，我们发布了 MAUPQA 数据集，其中包含接近 400,000 个波兰语问题 - 段落对，以及 HerBERT-QA 神经检索器。

May, 2023