May, 2023

离线监督正则化的方式复制人类复杂对话策略

TL;DR通过离线模仿学习和状态转移信息的利用,结合正则化技巧进行有效地优化,可使模型更好地完成基于对话系统的任务。