Nov, 2023

基于工作流的任务导向对话生成

TL;DR本文提出了一种基于强化学习的新框架,用于生成与给定工作流程对齐的对话回复,通过结合 ComplianceScorer 评估指标和交互式采样技术的 RL 优化过程,评估结果表明该框架在任务导向对话系统上优于基线方法,并能生成遵循预定工作流程且自然流畅的对话回复。