Aug, 2024

用户参与的多模态大语言模型活动辅助评估

TL;DR本研究解决了现代多模态推理模型在多步骤日常活动中辅助用户的能力缺口。通过对两类多模态大语言模型的基准测试,我们首次开展了用户研究,发现苏格拉底模型在离线和在线设置中均优于视觉条件语言模型,并指出当前模型在活动辅助中处理长期视觉历史的挑战。