Mar, 2023

使用层次行动探索的深度强化学习实现对话生成

TL;DR本文提出一种新的双粒度 Q 函数,通过探索最有前途的响应类型来介入采样,从而解决自然语言行动空间巨大所带来的效率问题,在多个设计用于识别人类情感细节的奖励函数中,以离线强化学习的方式学习,我们的算法在实证研究中表现优于基线方法,进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。