Sep, 2023

对话行为感知 Transformer 用于对话策略学习

TL;DR利用预训练语言模型的纯文本知识,加速强化学习代理的学习速度,并通过探索对话行为空间最大化长期累积奖励,提出了一种对话行为感知的变压器编码器(DaTrans)。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。