BriefGPT.xyz
Ask
alpha
关键词
multiwoz 2.0 dataset
搜索结果 - 1
ICLR
奖励的神奇能力及其驯服之法:基于任务导向对话系统的奖励学习案例研究
本文介绍了两种常见的奖励函数学习方法,并使用这些方法指导 end-to-end ToD 代理的训练,在 Multiwoz 2.0 数据集上取得了有竞争力的结果。
PDF
a year ago
Prev
Next