多迭代偏好优化的风格转换

Jun, 2024

Style Transfer with Multi-iteration Preference Optimization

Shuai Liu, Jonathan May

TL;DR通过引入探索和优化的多次迭代和希望与恐惧采样策略，以及伪平行生成方法和动态加权奖励聚合方法来改进偏好优化方法，本文在两个常用的文本风格转换数据集上评估模型，通过自动化和人工评估结果展示了我们模型相对于最先进基准的有效性和优越性。

Abstract

Numerous recent techniques for text style transfer characterize their approaches as variants of reinforcement learning and preference optimizatio

text style transfer reinforcement learning preference optimization parallel generation multi-objective reward

发现论文，激发创造

风格转换作为无监督机器翻译

本文提出一种使用无监督机器翻译方法来实现自动语言风格转换的方法，利用样式偏好信息和单词嵌入相似性来生成伪平行数据，并采用迭代回译方法来联合训练两个神经机器翻译（NMT）系统，其中引入样式分类器来控制噪声。实验表明，该方法在语言风格转换的精确度和输入输出对应质量方面优于以前的现有模型。

Aug, 2018

学习文本风格转移与直接奖励

本研究探讨了一种基于奖励机制的训练算法以进行文本风格转换任务，结合神经机器翻译模型的语义相似度度量来显式评估系统输出与输入文本之间内容的保留，实验结果显示该模型相对于强基准系统在自动和人类评估上具有显著的优势。

Oct, 2020

文本风格转换：探索与评估

本文提出使用对抗网络以学习分离内容表示和风格表示的方法来解决自然语言处理中的样式转移问题，并提出了新的评估指标来测量样式转移的转移强度和内容保留。作者在文章 - 新闻标题转移和正面 - 负面评论转移两个任务上评估了模型和指标，结果表明，所提出的模型的样式转移强度和内容保留得分比自动编码器更高，内容保留度指标与人类判断高度相关。

Nov, 2017

基于 Bootstrapping 和步进强化奖励的语言风格转化半监督框架学习

本研究提出一种使用半监督框架和强化返馈来解决文本风格转移挑战的方法，通过自动构建伪并行对来引导监督学习并通过强化奖励学习未标注数据，提供细粒度的学习信号来稳定增强学习，并取得了多个数据集上最先进的性能。

May, 2022

文本风格转移的强化奖励框架

本文提出了一种基于强化学习的框架，以直接优化目标度量标准的方式实现文本风格转移，取得了比现有最新技术更好的性能。

May, 2020

基于强化学习的无需平行训练语料库的文本风格转移

本研究利用强化学习生成评估器结构，使用基于注意力的编码 - 解码器转换源风格的句子至目标风格，并进行了语义和句法限制的对抗训练风格鉴别器，成功实现了无平行训练语料库的文本风格转移，并在两种不同的风格转移任务（情感转移和形式转移）中取得了优于现有方法的结果，并进一步进行了手动评估，证明了所提出方法在生成文本质量方面的有效性。

Mar, 2019

基于对比学习的梯度导向无监督文本风格转换

本文提出了一种基于对比学习范式的新型文本风格转换模型，通过明确收集相似语义句子和设计基于孪生模型的风格分类器，以解决文本样式转换中的内容迁移和样式歧义等问题。针对这些问题，实验结果表明，该模型比现有技术更加有效。

Jan, 2022

无监督文本风格转移的双重强化学习框架

本文提出了一种基于双重强化学习框架的一步映射模型，以直接传输文本的风格，而无需分离内容和风格，通过在双重结构上设计的两种奖励来反映风格准确性和内容保留。这种方法可以在没有使用并行数据的情况下通过强化学习训练出两个一步映射模型，评估表明该模型在两个基准数据集上表现优于现有技术，特别是 BLEU 分数平均提高了 8 分以上，人类评估也验证了该模型在风格准确性、内容保留和流畅性方面的有效性。

May, 2019

使用策略优化进行作者风格迁移

通过参数高效的迁移学习技术和策略优化方法，本研究提出了一种简单的两步调优和优化技术，用于在资源有限的情况下进行文本风格转换，并在作者转换和更大数据的本地语言风格任务中都取得了优于最先进基准模型的表现。

Mar, 2024

文本风格转移的深度学习综述

该论文系统调查了 100 多篇关于神经文本风格迁移的文章，分析了任务制定，现有数据集和子任务的方法，评估以及并行和非并行数据的方法等方面，并就未来该领域的发展进行了讨论。

Nov, 2020