Oct, 2016

使用迁移强化学习个性化对话系统

TL;DR提出了一个基于POMDP的迁移学习框架PETAL,该框架可以将多个用户的数据作为源域,个人用户的数据作为目标域进行适应,来学习个性化的任务导向式对话系统,展现了针对不同用户采取不同合适动作的行为结果,从而有效地提高了个性化情境下的对话质量。