Jun, 2022

通过强化学习学习生成对话生成的提示

TL;DR本文提出了将prompting和reinforcement learning相结合的方法以控制chatbot生成的内容,并通过multi-task learning提高该方法的泛化能力和适应性,实验证明所提出的方法可以成功控制多个SOTA Dialogue Models。