Mar, 2023

奖励数百万用户与聊天机器人的现实世界互动

TL;DR该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人,通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率,从而达到使用者参与度优先的目的。研究结果表明,这种方法可以将聊天长度增加高达 70%,使 GPT-J 6B 模型的用户留存率增加超过 30%。未来的工作将使用奖励模型实现数据飞轮,以轮换地微调语言模型和奖励模型。