Aug, 2022

部署后学习新技能:通过人类反馈改进基于互联网的开放领域对话

TL;DR研究利用互联网检索获取更新信息并从人类反馈中提升网络聊天技能的算法,并表明了利用 Director 模型可以显著提高性能。