BriefGPT.xyz
Ask
alpha
关键词
multi-objective reward
搜索结果 - 1
多迭代偏好优化的风格转换
通过引入探索和优化的多次迭代和希望与恐惧采样策略,以及伪平行生成方法和动态加权奖励聚合方法来改进偏好优化方法,本文在两个常用的文本风格转换数据集上评估模型,通过自动化和人工评估结果展示了我们模型相对于最先进基准的有效性和优越性。
PDF
20 days ago
Prev
Next