Nov, 2023

实现视觉辅助对话的社交机器人

TL;DR本论文提出了一个初步实现的对话管理器,利用最新的大型语言模型(如 GPT-4,IDEFICS)来将视觉能力整合到对话代理中,以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统,本论文展望了未来,让对话代理无缝地融合文本和视觉模态,实现更丰富、更上下文感知的对话。