Jul, 2023

智能代理的对抗性对话塑造

TL;DR通过对抗对话塑造探究了两个模型 —— 生成对抗网络与策略梯度(GANPG)和生成对抗网络每个生成步骤进行奖励的模型(REGS),来提升智能对话代理的性能。讨论了使用不同训练细节(seq2seq 和 transformers)在强化学习框架下的表现。