PARAPHRASUS : 一个综合基准,用于评估释义检测模型
本文提出了一种从Twitter采集大规模句子释义的新方法,通过链接共享的URL,并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。
Aug, 2017
使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用PARANMT-50M训练了同义句嵌入,能在所有SemEval基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。
Nov, 2017
通过对抗方法提出了一个新的数据集创建方式——对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
Jun, 2021
本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个大型自动构建的训练集,用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义,最好的预训练语言模型在我们的数据集上进行微调,达到了 84.2 F1 的最先进性能;此外,我们的实证结果还表明,使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比,可以生成更多样化且高质量的同义改述。
Oct, 2022
本文提出了SCANING,这是一个通过受控噪声注入进行释义的无监督框架,它着重于代数单词问题的释义,并进行了广泛的自动化和手动评估,从而提高了语义保存和产生不同释义方面的性能。
Feb, 2023
本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战,探讨人工改写和机器改写之间的区别,并对常用的数据集进行综合分析和评估,结果显示自动生成文本的水平仍不及人类普及水平,适合于语义多样性语料的 TF-IDF 方法的效果最好,同时,发现了四个语义多样性和挑战性最高的数据集。
Mar, 2023
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明,虽然目前的技术在二元分类场景即复述或非复述上表现良好,但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色,但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外,扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。
Oct, 2023
通过文献综述和提出分类法,本研究对25个已知的改写(子)任务进行整理和组织。使用分类器识别给定改写实例适用的任务,发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。
Mar, 2024
AI生成的文本检测已引起广泛关注,随着强大的语言模型接近人类水平的生成,检测(部分)AI改写文本的工作受到了限制,然而,AI改写在各种应用场景中常被用于文本优化和多样性,为此,我们提出了一种新颖的检测框架,用于检测文本中的改写范围(PTD),旨在识别文本中的改写范围,不同于文本级别的检测,PTD采用全文并为每个句子分配一个得分,表示改写程度,我们构建了一个专用数据集PASTED用于检测文本中的改写范围,内部和外部结果表明PTD模型在识别AI改写文本范围方面的有效性,统计和模型分析阐释了改写文本范围周围上下文的关键作用,大量实验证明PTD模型可以适用于多种改写提示和多个改写文本范围,我们在此链接处发布我们的资源
May, 2024