多种样式训练数据分布对多样式文本转换的平衡效应
本文提出一种控制文本数据中多种因素变异的模型,用回译机制代替对解缠缠绕的限制,实现对性别、情感、产品类型等多个属性的控制,并通过在潜空间中的池化运算使内容保留和风格变化之间的权衡更加精细,进一步拓展了去耦合框架的应用范围。
Nov, 2018
本文介绍了使用独立获取的数据来控制多种风格的方法,旨在解决现有方法中需要联合注释所有风格维度的共同缺点,通过与现有技术的比较,我们的模型能够保留输入文本的内容,同时控制多个风格维度。
Oct, 2020
该论文系统调查了 100 多篇关于神经文本风格迁移的文章,分析了任务制定,现有数据集和子任务的方法,评估以及并行和非并行数据的方法等方面,并就未来该领域的发展进行了讨论。
Nov, 2020
通过引入探索和优化的多次迭代和希望与恐惧采样策略,以及伪平行生成方法和动态加权奖励聚合方法来改进偏好优化方法,本文在两个常用的文本风格转换数据集上评估模型,通过自动化和人工评估结果展示了我们模型相对于最先进基准的有效性和优越性。
Jun, 2024
本文提出使用对抗网络以学习分离内容表示和风格表示的方法来解决自然语言处理中的样式转移问题,并提出了新的评估指标来测量样式转移的转移强度和内容保留。作者在文章 - 新闻标题转移和正面 - 负面评论转移两个任务上评估了模型和指标,结果表明,所提出的模型的样式转移强度和内容保留得分比自动编码器更高,内容保留度指标与人类判断高度相关。
Nov, 2017
本文提出一种使用无监督机器翻译方法来实现自动语言风格转换的方法,利用样式偏好信息和单词嵌入相似性来生成伪平行数据,并采用迭代回译方法来联合训练两个神经机器翻译(NMT)系统,其中引入样式分类器来控制噪声。实验表明,该方法在语言风格转换的精确度和输入输出对应质量方面优于以前的现有模型。
Aug, 2018
本研究介绍了复杂文本风格转换任务的概念,并基于两个广泛适用的场景构建了复杂文本数据集。我们的数据集是这一类别的首个大规模数据集,包含 700 条改写句子和 1000 条《原神》游戏中的句子。虽然大型语言模型(LLM)在复杂文本风格转换中显示出了潜力,但存在数据隐私问题、网络不稳定性和高部署成本等缺点。为了解决这些问题,我们通过对比学习探索了小型模型(小于 T5-3B)通过隐式风格预训练的有效性。我们还提出了一种基于与人类评估对齐的文本生成质量自动评估方法,使用 ChatGPT。最后,我们将我们的方法与现有方法进行了比较,并展示了我们的模型在少样本文本风格转换模型方面达到了 state-of-art 的性能。
Sep, 2023