BriefGPT.xyz
Ask
alpha
关键词
simulated human feedback
搜索结果 - 1
EMNLP
基于强化学习的神经机器翻译波段信道模型仿真人反馈
本文提出了一种使用虚拟的人类反馈数据,通过强化学习算法,结合基于注意力机制的神经编码解码架构,优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题,并能有效优化传统机器翻译测量指标。
PDF
7 years ago
Prev
Next