Sep, 2023

JoTR: 对话策略学习的联合 Transformer 和强化学习框架

TL;DR使用 JoTR 框架,利用文本到文本的 Transformer 模型生成灵活的对话动作,以解决传统方法中预定义动作候选的不足,从而提高对极限情况的处理能力,并通过强化学习和奖励调整机制有效地优化对话策略。在广泛的评估中,JoTR 在两个基准对话建模任务上展现出卓越的性能。