Jun, 2024

多迭代偏好优化的风格转换

TL;DR通过引入探索和优化的多次迭代和希望与恐惧采样策略,以及伪平行生成方法和动态加权奖励聚合方法来改进偏好优化方法,本文在两个常用的文本风格转换数据集上评估模型,通过自动化和人工评估结果展示了我们模型相对于最先进基准的有效性和优越性。