通过对抗性改写任务提升释义检测

Jun, 2021

通过对抗性改写任务提升释义检测

Improving Paraphrase Detection with the Adversarial Paraphrasing Task

Animesh Nighojkar, John Licato

TL;DR通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务（Adversarial Paraphrasing Task， APT），以更好地检测句级别的意义相等，从而加速数据集生成并提高同义句识别模型的性能。

Abstract

If two sentences have the same meaning, it should follow that they are equivalent in their inferential properties, i.e., each sentence should textually entail the other. However, many paraphrase datasets currently in widespread use rely on a sense of paraphrase based on word overlap and syntax. Can we teach them instead to identify paraphrases in a way that

paraphrase identification adversarial method dataset creation semantically equivalent sentence-level meaning

发现论文，激发创造

改写可以躲避 AI 生成文本的检测，但究竟能否防御检索攻击？

通过语义相似的生成物和检测算法，该研究提出了一种简单的防御，以增加对 AI 生成文本的检测器对抗改写攻击的鲁棒性。

Mar, 2023

任务导向的释义分析

通过文献综述和提出分类法，本研究对 25 个已知的改写（子）任务进行整理和组织。使用分类器识别给定改写实例适用的任务，发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。

Mar, 2024

通过自动爬取和对齐的句子对进行神经重述

本文介绍了一种基于语言约束的相似性搜索方法，用于自动产生大规模对齐语料库，以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估，并使用基于指针的深度神经网络架构实验。

Feb, 2024

生成和检测的释义类型

当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分，忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点，通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明，虽然目前的技术在二元分类场景即复述或非复述上表现良好，但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色，但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外，扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。

Oct, 2023

深度学习下的释义识别：数据集和方法综述

本文回顾传统和现有的改进的改写识别方法，提出了改写的一种新分类体系。探究了这种类型在流行的数据集中的表现形式以及一些类型改写的不充分表示如何影响改写识别能力，最后提出了更有效地使用 AI 进行改写检测的未来研究方向和数据集。

Dec, 2022

LAMPAT：使用对抗训练进行多语言改写的低秩调整

用低阶适配的对抗性训练方法提出了第一个无监督多语言释义模型 LAMPAT，实验证明该方法不仅在英文上效果好，还可以推广到看不见的语言。

Jan, 2024

ParaAMR：一种大规模的语法多样化释义数据集，基于 AMR 回译得出

本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR，并证明了其在各种 NLP 应用方面的巨大潜力。

May, 2023

跨语言释义识别

通过对比式编码器模型在多语言环境下进行训练，实现检测多语言环境中的困难释义，得到可用于语义搜索等多种任务的嵌入向量，并在下游任务中评估模型性能和嵌入向量质量，与当前最先进的交叉编码器相比，在所选择的数据集中只有 7-10% 的最小相对下降，同时保持嵌入向量的良好质量。

Jun, 2024

使用图论自动扩充的同义句数据集：寻找朋友和反转敌对者

提出了一种基于图论的自动改进 NLP 数据集的方法，通过推断原始语句对的标签来构建同义词图，并使用结构平衡理论识别可能的错误标签，并在 BERT 模型的基础上对同义词模型进行训练，结果表明使用这种自动增强的训练集可以得到更准确的模型。

Nov, 2020

不改写，检测！用于语义解析的快速有效数据收集

本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析，提出了一种结合模型和众包技术的数据收集方法，以减轻众包方法带来的偏差，实验结果表明，该方法对于自然语言和逻辑形式解析的准确度相对更高。

Aug, 2019