基于隐式众包数据采集的波斯语释义数据集
本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR,并证明了其在各种 NLP 应用方面的巨大潜力。
May, 2023
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022
本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析,提出了一种结合模型和众包技术的数据收集方法,以减轻众包方法带来的偏差,实验结果表明,该方法对于自然语言和逻辑形式解析的准确度相对更高。
Aug, 2019
本文提出了一种从 Twitter 采集大规模句子释义的新方法,通过链接共享的 URL,并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。
Aug, 2017
我们介绍了一个众包的波斯语阅读理解数据集,包括 80,000 个问题和答案,其中 25%的问题是具有对抗性无法回答的,该数据集被用于建立波斯语阅读理解和提供基线结果的研究。
Feb, 2022
提出了 ParaSCI,这是第一个在科学领域内的大规模释义数据集,包括来自 ACL(ParaSCI-ACL)的 33,981 对释义和来自 arXiv(ParaSCI-arXiv)的 316,063 对释义。通过收集对同一篇论文的引用或聚合科学术语的定义等方法,我们挖掘了科学论文的特点和共同模式,并且提出了 PDBERT 作为一种通用的释义发现方法来利用部分释义的句子。ParaSCI 的释义具有突出的长度和文本多样性的优点,这与现有的释义数据集相补充。ParaSCI 在人类评估和下游任务中获得了令人满意的结果,尤其是长篇释义生成方面。
Jan, 2021
本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个大型自动构建的训练集,用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义,最好的预训练语言模型在我们的数据集上进行微调,达到了 84.2 F1 的最先进性能;此外,我们的实证结果还表明,使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比,可以生成更多样化且高质量的同义改述。
Oct, 2022
本文提出了一个名为 PARADE 的新型基准数据集,用于测试包含不同领域专业知识的文本相似性鉴别模型。结果表明,即使是最先进的神经网络模型以及普通人类标注者在此数据集上的表现也十分糟糕。PARADE 可以为需要加入专业领域知识的模型提供一个资源。我们公开了数据集和代码。
Oct, 2020
使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子,已按其相似度由 IR 系统计算排序,并可在 Web 上免费访问。
Nov, 2017
本文介绍了如何利用 Paraphrase Database 数据库中的短语对来构建参数化的释义模型,进而提高其覆盖范围和准确性,并介绍了两个人工标注的数据集以评估这些模型。使用我们的参数化释义模型,我们在标准单词和双字词相似度任务上实现了最佳结果,并在新的短语释义任务中击败了强大的基线模型。
Jun, 2015