一个不断增长的句子释义数据集
本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个大型自动构建的训练集,用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义,最好的预训练语言模型在我们的数据集上进行微调,达到了 84.2 F1 的最先进性能;此外,我们的实证结果还表明,使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比,可以生成更多样化且高质量的同义改述。
Oct, 2022
本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型,通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集,从而训练生成的语义句子向量,不仅在经典语义文本相似度任务中表现出色,而且在非精确参数化相似句子任务上表现突出。
Oct, 2021
本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析,提出了一种结合模型和众包技术的数据收集方法,以减轻众包方法带来的偏差,实验结果表明,该方法对于自然语言和逻辑形式解析的准确度相对更高。
Aug, 2019
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024
本文是关于用于俄语释义生成的大规模语料库进行自动开发和排名的,提出了 ParaPhraser Plus 数据集以解决目前该领域小规模的语料库难以在文本生成中应用的问题,并使用 Universal Transformer 架构进行了实验。
Jun, 2020
本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR,并证明了其在各种 NLP 应用方面的巨大潜力。
May, 2023
通过使用网页爬取方法和机器翻译系统,本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法,并且能够提取噪音干扰较小的平行句子。
Sep, 2015
本文提出了两种使用释义语料库来初始化神经简句化模型的策略,通过参考释义语料库中复杂度较高的句子对可以构造大规模虚拟平行简句化数据,并将该方法用于训练三种不同的神经简句化模型,在 WikiLarge 数据集中相对于未初始化情况下获得了显著的提升。
May, 2023
使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集 PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入,能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。
Nov, 2017
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022