Apr, 2024

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

TL;DR通过将强化学习与大型语言模型结合,研究了在开放性文本学习环境中增强代理的泛化能力,提出了三种代理类型:基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理,以提高代理的性能和泛化能力,并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明,基于强化学习的代理在任务完成方面表现出色,但在提问诊断问题方面有所欠缺;相反,基于大型语言模型的代理在提问诊断问题方面表现较好,但在完成任务方面表现较差;而混合的大型语言模型辅助强化学习代理能够克服这些限制,凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。