Feb, 2023

离线混合专家对话管理强化学习

TL;DR本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法,利用 MoE-LM 对话模型的结构,通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。