BriefGPT.xyz
Ask
alpha
关键词
reinforcement rewards
搜索结果 - 1
ACL
基于 Bootstrapping 和步进强化奖励的语言风格转化半监督框架学习
本研究提出一种使用半监督框架和强化返馈来解决文本风格转移挑战的方法,通过自动构建伪并行对来引导监督学习并通过强化奖励学习未标注数据,提供细粒度的学习信号来稳定增强学习,并取得了多个数据集上最先进的性能。
PDF
2 years ago
Prev
Next