Dec, 2023

CLOVA:带有工具使用和更新的封闭循环视觉助手

TL;DR本文介绍了一种闭环视觉助手 CLOVA,利用大型语言模型(LLMs)将现成工具集成在一起,通过推理、反馈和学习三个阶段来解决视觉助手在新环境中推广使用的能力有限的问题。实验结果显示,CLOVA 在视觉问题回答、知识标注和图像编辑任务方面的性能均超过其他方法。