- 行动控制的改写
通过引入操作令牌作为用户预期行为的表示,结合文本嵌入进行表示融合,以实现受控改写;实验结果表明,在不给定操作时,我们的方法能够成功实现特定操作受控的改写,并与传统的非受控方法保持相同甚至更好的性能,从而促进了面向用户的可选操作控制概念。
- ParaFusion:添加高质量词汇和句法多样性的基于大规模 LLM 驱动的英语改写数据集
ParaFusion 是使用大型语言模型(LLM)开发的大规模高质量英语改写数据集,旨在解决现有数据集中语法和词汇多样性不足、与原始句子十分相似以及包含仇恨言论和噪音等问题,为提高自然语言处理(NLP)应用提供了一个更加干净和专注的资源。
- 通过可控潜在扩散实现同义重述生成的强制执行
本文提出一种名为 LDP 的新型模型,即 extit {L} atent extit {D} iffusion extit {P} araphraser,用于生成改写句,通过建模可控的扩散过程,并在学习到的潜在空间中实现了更高的生成效率 - EMNLP基于矢量量化提示学习的释义生成
通过利用预训练模型和实例相关提示,本文提出生成多样且高质量的复述词句的方法,使用向量量化的提示来控制预训练模型的生成。实验表明此方法在三个基准数据集上取得了最新的最佳结果,包括 Quora、Wikianswers 和 MSCOCO。一旦被接 - EMNLP生成和检测的释义类型
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果 - 通过生成改写句实现多语言词汇简化
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义 - ACLParaAMR:一种大规模的语法多样化释义数据集,基于 AMR 回译得出
本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR,并证明了其在各种 NLP 应用方面的巨大潜力。
- ACLPIP: 基于解析指导的前缀法用于句法控制的释义生成
提出一种名为 PIP 的新型前缀调整模型,可以在较低计算成本和较少的学习参数的情况下,在特定的句法结构下执行重述生成任务,并显著提高语法控制信息的捕获和性能。
- ChatGPT 替代人群准备释义以进行意图分类:更高的多样性和可比较的模型鲁棒性
本文研究了使用 ChatGPT 替代人工工人进行意图分类的复述生成任务,通过基于已有众包研究的数据收集方法,展示了 ChatGPT 创建的复述更为多样化且能够带来更加强健的模型。
- 基于部分可观测数据的句法鲁棒开放式信息抽取训练
本篇论文提出了一种基于多样性释义的句法丰富分布的鲁棒性训练框架,用于解决模型训练中句法分布现实世界的不完全可观察性挑战。该框架包含两种算法,旨在恢复表达转化的知识。该框架可以应用于其他句法部分可观察的领域。在基于框架构建的验证集 CaRB- - 半监督近义复述生成的深层潜变量模型
研究利用深度潜在变量模型进行半监督任务,提出了 VSAR 和 DDL 两个模型,组合使用可提高性能,在已知文本对的情况下使用 DDL+VSAR 进行半监督学习,使用提出的权重初始化方法解决冷启动问题,经实验验证,该模型在数据不完整的情况下具 - EMNLP使用抽象意义表示进行无监督句法控制的释义生成
本研究提出了一种基于 AMR 的修改短语生成模型 (AMRPG),该模型通过对抽象含义表示进行编码,从而在语法控制和短语生成质量方面显着提高了非监督学习方法的性能,并可用于数据增强以改善 NLP 模型的鲁棒性。
- 情感梯度下的细粒度情感释义
提出一种新的基于感情梯度的细粒度情感改写任务,通过 fine-tuning 文本到文本的转换器进行多任务训练,对输入和目标文本进行细粒度情感标注,评估结果表明,将情感标签纳入改写任务可以显著提高获取所期望情感的高质量改写的几率,并在多个改写 - EMNLP大规模近义语获取与生成的改进
本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个 - 研究在 FRANK QA 系统中使用释义生成进行问题改写的应用
通过评估释义生成方法实现提高 FRANK 问答系统可回答的自然语言问题的多样性,该研究分析了 LC-QuAD 2.0 数据集上的自动度量和人工判断,并讨论了它们之间的相关性,同时对包含错误的数据点进行了错误分析。通过将最佳执行的释义生成方法 - 理解重述度量
提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量,并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。
- ACL使用平行语料库进行基于原则的释义生成
本文针对往返机器翻译产生的模棱两可的翻译问题,提出了一种基于信息瓶颈的对抗式训练方法。该方法将引入一个可调整的参数来平衡准确性和多样性,并在实验中获得更好的效果。
- 利用释义生成快速启动对话系统
该研究提出了一种基于改写生成的方法,可以减少创建新对话代理所需要的时间和成本,同时提高其性能,使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力,有助于在组织范围内规模化部署这项技术。
- ACL质量控制的释义生成
该研究提出一种名为 QCPG 的控制质量的引号生成模型,该模型能够直接控制生成的引语的质量维度,并且还提供了一种方法来确定预期能够产生最优引语的质量控制空间中的点。实验表明,该模型能够生成保持原始含义的引语并且比未受控的基线具有更高的多样性 - 蕴含关系感知的释义生成
这篇文章介绍了一种新的基于强化学习的弱监督的改述系统 ERAP,通过使用现有的改述和自然语言推理 (NLI) 语料库进行训练,可以生成符合给定蕴涵关系且质量良好的改述,经实验证明,使用 ERAP 来增强下游的文本蕴涵任务训练数据可以提高性能