Sep, 2024

超越提示:大型语言模型的动态对话基准测试

TL;DR本研究提出了一种动态基准测试系统,用于评估对话智能体的性能,重点关注长期记忆、持续学习和信息整合能力。研究发现,尽管大型语言模型在单任务交互中表现良好,但在多个任务交替进行时却面临挑战,这揭示了当前基准测试未能捕捉到的自然互动中的更多挑战。