PAWS：单词混淆的释义对抗

ACLApr, 2019

PAWS: Paraphrase Adversaries from Word Scrambling

Yuan Zhang, Jason Baldridge, Luheng He

TL;DR该论文介绍了一个名为 PAWS 的新数据集，其包含具有高词汇重叠的 108,463 个良好构造的释义对和非释义对，由受控词汇交换和回译产生，并由人类评定其流利度和释义；在现有数据集上表现出色的模型对于 PAWS 数据表现不佳。然而，将 PAWS 训练数据用于这些模型可以提高其准确性为 85％，同时保持对现有任务的性能。相比之下，无法捕获非局部上下文信息的模型即使有 PAWS 训练示例也会失败；因此，PAWS 为推动更好地利用结构、上下文和成对比较的模型的进一步进展提供了一个有效的工具。

Abstract

Existing paraphrase identification datasets lack sentence pairs that have high lexical overlap without being paraphrases. models trained o

paraphrase identification lexical overlap paws dataset models

发现论文，激发创造

PAWS-X: 用于语义相似度识别的跨语言对抗数据集

PAWS-X 是一个新的数据集，由六种不同类型的语言中的 23,659 个人类翻译评估成对组成，并提供了三个不同容量模型的基线数字，这些模型具有捕捉非本地上下文和句子结构的不同能力，并使用不同的多语种训练和评估模式。

Aug, 2019

通过对抗性改写任务提升释义检测

通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务（Adversarial Paraphrasing Task， APT），以更好地检测句级别的意义相等，从而加速数据集生成并提高同义句识别模型的性能。

Jun, 2021

基于隐式众包数据采集的波斯语释义数据集

本文介绍了 PerPaDa，这是一个从用户输入中收集的波斯语近义词语料库，旨在帮助检测抄袭。该语料库包含 2446 个波斯语句子的大量近义词和原句，使用了一些启发式方法来排除不符合标准的句子，相对于类似数据集，该数据集更大且更无偏见。

Jan, 2022

从释义数据库到组合释义模型再回到释义数据库

本文介绍了如何利用 Paraphrase Database 数据库中的短语对来构建参数化的释义模型，进而提高其覆盖范围和准确性，并介绍了两个人工标注的数据集以评估这些模型。使用我们的参数化释义模型，我们在标准单词和双字词相似度任务上实现了最佳结果，并在新的短语释义任务中击败了强大的基线模型。

Jun, 2015

PARADE: 面向计算机科学领域知识的近义识别新数据集

本文提出了一个名为 PARADE 的新型基准数据集，用于测试包含不同领域专业知识的文本相似性鉴别模型。结果表明，即使是最先进的神经网络模型以及普通人类标注者在此数据集上的表现也十分糟糕。PARADE 可以为需要加入专业领域知识的模型提供一个资源。我们公开了数据集和代码。

Oct, 2020

ParaAMR：一种大规模的语法多样化释义数据集，基于 AMR 回译得出

本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR，并证明了其在各种 NLP 应用方面的巨大潜力。

May, 2023

代数式单词问题的自监督释义质量检测：'John ate 5 apples' != 'John ate some apples

本文介绍了 ParaQD，采用自监督方法对 Algebraic Word Problems 中的释义进行评分，从而训练良好的释义生成模型，与现有自监督方法相比，ParaQD 的性能提高了 32%。

Jun, 2022

一个不断增长的句子释义数据集

本文提出了一种从 Twitter 采集大规模句子释义的新方法，通过链接共享的 URL，并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。

Aug, 2017

RoPAWS：鲁棒的半监督表征学习从未筛选的数据中

我们提出了 RoPAWS，它是 PAWS 的强大扩展，可以使用真实世界未标记的数据。从概率角度出发，我们基于标记和未标记数据的密度进行预测，引入了校准，从而得到了一个不错的结果。我们证明，RoPAWS 对于 uncurated Semi-iNat 和 curated ImageNet 都有明显的提高。

Feb, 2023

ParaSCI: 一个大型的科学同义改写数据集，用于长句子同义改写生成

提出了 ParaSCI，这是第一个在科学领域内的大规模释义数据集，包括来自 ACL（ParaSCI-ACL）的 33,981 对释义和来自 arXiv（ParaSCI-arXiv）的 316,063 对释义。通过收集对同一篇论文的引用或聚合科学术语的定义等方法，我们挖掘了科学论文的特点和共同模式，并且提出了 PDBERT 作为一种通用的释义发现方法来利用部分释义的句子。ParaSCI 的释义具有突出的长度和文本多样性的优点，这与现有的释义数据集相补充。ParaSCI 在人类评估和下游任务中获得了令人满意的结果，尤其是长篇释义生成方面。

Jan, 2021