Nov, 2024

利用离线强化学习改善多领域任务导向对话系统

TL;DR本研究解决了任务导向对话系统在使用监督学习微调预训练语言模型时出现的曝光偏差和令牌损失问题,导致系统无法有效完成用户任务的问题。通过采用统一的预训练语言模型GPT2,并结合监督学习和强化学习优化,研究提出了一种新的奖励函数,最终实验结果显示该系统在MultiWOZ2.1数据集上成功率提高了3.17%。