大规模近义语获取与生成的改进

EMNLPOct, 2022

Improving Large-scale Paraphrase Acquisition and Generation

Yao Dou, Chao Jiang, Wei Xu

TL;DR本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性，并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库，该语料库由两种不同的同义改述定义的众包和专家注释组成，用于同义改述识别，以及一个多参考测试集和一个大型自动构建的训练集，用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义，最好的预训练语言模型在我们的数据集上进行微调，达到了 84.2 F1 的最先进性能；此外，我们的实证结果还表明，使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比，可以生成更多样化且高质量的同义改述。

Abstract

This paper addresses the quality issues in existing twitter-based paraphrase datasets, and discusses the necessity of using two separate definitions of paraphrase for identification and generation tasks. We present a new Multi-Topic Paraphrase in Twitter (MultiPIT) corpus that consists

twitter-based paraphrase multipit corpus paraphrase identification paraphrase generation pre-trained language model

发现论文，激发创造

一个不断增长的句子释义数据集

本文提出了一种从 Twitter 采集大规模句子释义的新方法，通过链接共享的 URL，并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。

Aug, 2017

ParaAMR：一种大规模的语法多样化释义数据集，基于 AMR 回译得出

本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR，并证明了其在各种 NLP 应用方面的巨大潜力。

May, 2023

ParaNMT-50M：用数百万机器翻译推进释义句嵌入的极限

使用神经机器翻译将大型平行语料库的非英语部分翻译为英语，生成超过五千万个英语句子的同义句数据集 PARANMT-50M，该数据集可用于同义句生成，提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入，能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统，并展示了它在同义句生成中的应用。

Nov, 2017

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

不改写，检测！用于语义解析的快速有效数据收集

本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析，提出了一种结合模型和众包技术的数据收集方法，以减轻众包方法带来的偏差，实验结果表明，该方法对于自然语言和逻辑形式解析的准确度相对更高。

Aug, 2019

众包改写收集中任务设计权衡的理解

本研究是对众包方法进行语义重述数据采集的系统研究，旨在探讨任务设计中准确性和多样性之间的平衡关系，并提出未来语义重述集采集的指导意见。

Apr, 2017

通过对抗性改写任务提升释义检测

通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务（Adversarial Paraphrasing Task， APT），以更好地检测句级别的意义相等，从而加速数据集生成并提高同义句识别模型的性能。

Jun, 2021

短文本消息中的释义检测深度网络模型

本文探讨在自然语言处理上的同义词检测，基于深度学习的方法结合卷积神经网络和长短时记忆网络有效解决了用户生成的短文本同义词检测上的挑战，取得了优越表现。

Dec, 2017

提升语音翻译指标

本文介绍了一种叫做 Parallel Paraphrasing 的翻译度量扩展方法，它利用参考和猜想的自动改写。这种方法对于只有一个参考的语音翻译度量（如 WER，CER 和 BLEU）的误导性结果进行了抵消。我们引入了两个新数据集，专门用于评估适用于瑞士德语语音转文本系统的测试的质量。基于这些数据集，我们展示了如果我们将该方法应用于常用测试中，我们能够显著提高与人类质量感知的相关性。

May, 2023

利用释义生成快速启动对话系统

该研究提出了一种基于改写生成的方法，可以减少创建新对话代理所需要的时间和成本，同时提高其性能，使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力，有助于在组织范围内规模化部署这项技术。

Apr, 2022