文本风格转移的强化奖励框架

May, 2020

Reinforced Rewards Framework for Text Style Transfer

Abhilasha Sancheti, Kundan Krishna, Balaji Vasan Srinivasan, Anandhavelu Natarajan

TL;DR本文提出了一种基于强化学习的框架，以直接优化目标度量标准的方式实现文本风格转移，取得了比现有最新技术更好的性能。

Abstract

style transfer deals with the algorithms to transfer the stylistic properties of a piece of text into that of another while ensuring that the core content is preserved. There has been a lot of interest in the field of text →

style transfer reinforcement learning text generation content preservation target style transfer

发现论文，激发创造

学习文本风格转移与直接奖励

本研究探讨了一种基于奖励机制的训练算法以进行文本风格转换任务，结合神经机器翻译模型的语义相似度度量来显式评估系统输出与输入文本之间内容的保留，实验结果显示该模型相对于强基准系统在自动和人类评估上具有显著的优势。

Oct, 2020

无监督文本风格转移的双重强化学习框架

本文提出了一种基于双重强化学习框架的一步映射模型，以直接传输文本的风格，而无需分离内容和风格，通过在双重结构上设计的两种奖励来反映风格准确性和内容保留。这种方法可以在没有使用并行数据的情况下通过强化学习训练出两个一步映射模型，评估表明该模型在两个基准数据集上表现优于现有技术，特别是 BLEU 分数平均提高了 8 分以上，人类评估也验证了该模型在风格准确性、内容保留和流畅性方面的有效性。

May, 2019

基于 Bootstrapping 和步进强化奖励的语言风格转化半监督框架学习

本研究提出一种使用半监督框架和强化返馈来解决文本风格转移挑战的方法，通过自动构建伪并行对来引导监督学习并通过强化奖励学习未标注数据，提供细粒度的学习信号来稳定增强学习，并取得了多个数据集上最先进的性能。

May, 2022

基于强化学习的无需平行训练语料库的文本风格转移

本研究利用强化学习生成评估器结构，使用基于注意力的编码 - 解码器转换源风格的句子至目标风格，并进行了语义和句法限制的对抗训练风格鉴别器，成功实现了无平行训练语料库的文本风格转移，并在两种不同的风格转移任务（情感转移和形式转移）中取得了优于现有方法的结果，并进一步进行了手动评估，证明了所提出方法在生成文本质量方面的有效性。

Mar, 2019

多迭代偏好优化的风格转换

通过引入探索和优化的多次迭代和希望与恐惧采样策略，以及伪平行生成方法和动态加权奖励聚合方法来改进偏好优化方法，本文在两个常用的文本风格转换数据集上评估模型，通过自动化和人工评估结果展示了我们模型相对于最先进基准的有效性和优越性。

Jun, 2024

STEER: 基于专家强化学习的统一风格转移

STEER 是一个统一的框架，通过专家增强（Expert Reinforcement）实现样式转移，用于解决样式转移中有限并行数据的挑战。该方法在多个目标样式中能够从任意未知源样式进行转移，具有灵活和高效的特性，取得了具有竞争力的基准线之上的最先进结果。

Nov, 2023

深层生成模型进行无监督文本风格转换

我们提出了一个用深度生成模型进行无监督文本风格转换的通用框架，该框架利用观察数据中的依赖关系学习内容和风格的潜在代码，并通过操纵这些代码来转换句子。实验结果表明，与几个强基准方法相比，我们的方法在自动评估和人工评估中取得了更好或具有竞争力的结果。

Aug, 2023

文本风格转换：探索与评估

本文提出使用对抗网络以学习分离内容表示和风格表示的方法来解决自然语言处理中的样式转移问题，并提出了新的评估指标来测量样式转移的转移强度和内容保留。作者在文章 - 新闻标题转移和正面 - 负面评论转移两个任务上评估了模型和指标，结果表明，所提出的模型的样式转移强度和内容保留得分比自动编码器更高，内容保留度指标与人类判断高度相关。

Nov, 2017

文本风格转移的深度学习综述

该论文系统调查了 100 多篇关于神经文本风格迁移的文章，分析了任务制定，现有数据集和子任务的方法，评估以及并行和非并行数据的方法等方面，并就未来该领域的发展进行了讨论。

Nov, 2020

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022