May, 2023
离线监督正则化的方式复制人类复杂对话策略
Replicating Complex Dialogue Policy of Humans via Offline Imitation Learning with Supervised Regularization
Zhoujian Sun, Chenyang Zhao, Zhengxing Huang, Nai Ding
TL;DR通过离线模仿学习和状态转移信息的利用,结合正则化技巧进行有效地优化,可使模型更好地完成基于对话系统的任务。