Oct, 2023

利用视听转换器的主动人机交互

TL;DR提出了一种基于视觉 - 语言多模态转换器的方法,通过从场景中提取视觉线索、用户的语言命令和对先前物体之间的交互的知识,识别和主动预测用户打算实现的潜在目标,并在适当的情况下主动建议任务,从而改进人机协作的直观程度。