Jan, 2024

DoraemonGPT: 面向理解动态场景的大型语言模型

TL;DR通过大型语言模型驱动的 DoraemonGPT 系统,我们能够处理动态视频任务,利用空间 - 时间查询和推理工具进行简洁而相关的中间结果,同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间,并以多种解决方案总结出改进的最终答案。在各种复杂问题的评估中,DoraemonGPT 展示了比以往研究更强大的能力。