May, 2023

InternChat: 通过与聊天机器人互动解决以视觉为中心的任务 —— 超越语言

TL;DR我们提出了一个交互式的可视化框架 InternChat,它整合了具有规划和推理能力的聊天机器人(如 ChatGPT)和指向动作等非语言指令,以使用户可以直接在屏幕上操作图像或视频。该框架通过结合指向动作和聊天机器人显著提高了用户和聊天机器人之间的交流效率和在视觉中心任务中聊天机器人的准确性。在 iChat 中,我们使用了辅助控制机制来提高 LLM 的控制能力,并且用高质量的多模态对话 Fine-tuned 了一个大型视觉语言模型 Husky,效果超越 GPT-4。