Nov, 2024

基于事后效果的强化学习互动对话体系统

TL;DR该研究解决了当前对话体系统在互动对话中缺乏有效引导对话的能力的问题。通过使用事后经历重写和增强现有的数据,采用离线强化学习的方法,研究提出了一种能在心理健康支持和慈善捐赠领域 outperform 现有对话体的新的技术。实验结果表明,所提方法在与真实用户的用户研究中显著优于现有的对话体系统。