基于隐式众包数据采集的波斯语释义数据集

Jan, 2022

基于隐式众包数据采集的波斯语释义数据集

PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data Collection

Salar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari

TL;DR本文介绍了 PerPaDa，这是一个从用户输入中收集的波斯语近义词语料库，旨在帮助检测抄袭。该语料库包含 2446 个波斯语句子的大量近义词和原句，使用了一些启发式方法来排除不符合标准的句子，相对于类似数据集，该数据集更大且更无偏见。

Abstract

In this paper we introduce PerPaDa, a Persian paraphrase dataset that is collected from users' input in a plagiarism detection system. As an implicit →

persian language paraphrase dataset plagiarism detection system crowdsourcing data quality

发现论文，激发创造

ParaAMR：一种大规模的语法多样化释义数据集，基于 AMR 回译得出

本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR，并证明了其在各种 NLP 应用方面的巨大潜力。

May, 2023

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

不改写，检测！用于语义解析的快速有效数据收集

本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析，提出了一种结合模型和众包技术的数据收集方法，以减轻众包方法带来的偏差，实验结果表明，该方法对于自然语言和逻辑形式解析的准确度相对更高。

Aug, 2019

一个不断增长的句子释义数据集

本文提出了一种从 Twitter 采集大规模句子释义的新方法，通过链接共享的 URL，并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。

Aug, 2017

PQuAD：一个波斯语问答数据集

我们介绍了一个众包的波斯语阅读理解数据集，包括 80,000 个问题和答案，其中 25％的问题是具有对抗性无法回答的，该数据集被用于建立波斯语阅读理解和提供基线结果的研究。

Feb, 2022

ParaSCI: 一个大型的科学同义改写数据集，用于长句子同义改写生成

提出了 ParaSCI，这是第一个在科学领域内的大规模释义数据集，包括来自 ACL（ParaSCI-ACL）的 33,981 对释义和来自 arXiv（ParaSCI-arXiv）的 316,063 对释义。通过收集对同一篇论文的引用或聚合科学术语的定义等方法，我们挖掘了科学论文的特点和共同模式，并且提出了 PDBERT 作为一种通用的释义发现方法来利用部分释义的句子。ParaSCI 的释义具有突出的长度和文本多样性的优点，这与现有的释义数据集相补充。ParaSCI 在人类评估和下游任务中获得了令人满意的结果，尤其是长篇释义生成方面。

Jan, 2021

大规模近义语获取与生成的改进

本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性，并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库，该语料库由两种不同的同义改述定义的众包和专家注释组成，用于同义改述识别，以及一个多参考测试集和一个大型自动构建的训练集，用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义，最好的预训练语言模型在我们的数据集上进行微调，达到了 84.2 F1 的最先进性能；此外，我们的实证结果还表明，使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比，可以生成更多样化且高质量的同义改述。

Oct, 2022

PARADE: 面向计算机科学领域知识的近义识别新数据集

本文提出了一个名为 PARADE 的新型基准数据集，用于测试包含不同领域专业知识的文本相似性鉴别模型。结果表明，即使是最先进的神经网络模型以及普通人类标注者在此数据集上的表现也十分糟糕。PARADE 可以为需要加入专业领域知识的模型提供一个资源。我们公开了数据集和代码。

Oct, 2020

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

从释义数据库到组合释义模型再回到释义数据库

本文介绍了如何利用 Paraphrase Database 数据库中的短语对来构建参数化的释义模型，进而提高其覆盖范围和准确性，并介绍了两个人工标注的数据集以评估这些模型。使用我们的参数化释义模型，我们在标准单词和双字词相似度任务上实现了最佳结果，并在新的短语释义任务中击败了强大的基线模型。

Jun, 2015