BriefGPT.xyz
Ask
alpha
关键词
step-by-step rewards
搜索结果 - 1
奖励关键之处:面向任务的对话的逐步强化学习
通过引入逐步奖励机制,我们的方法在理解和生成任务中对强化学习进行了扩展,实现了平衡优化,提高了任务导向对话系统的性能,并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结
→
PDF
16 days ago
Prev
Next