Jan, 2024

大型语言和强化学习模型相互增强的双向反馈机制:以案例研究为例

TL;DR大型语言模型和强化学习模型合作的教师 - 学生学习框架,通过递归互助的方式,实现了抽象信息的供给和实时反馈的互利循环,从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。