BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal grounding
搜索结果 - 3
多模态大型语言模型在预测语言处理中体现人类式的视觉 - 语言整合的证据
大型语言模型(LLMs)的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论,本文通过研究多模态语言模型(mLLMs)中的视觉关注权重,发现与人类一样,mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注
→
PDF
a year ago
HL 数据集:将高层语言概念与视觉相结合
本文介绍一个新的高级数据集(High-Level Dataset),可以拓展经典 COOC 数据集,使得机器学习模型更好地理解抽象概念,并进一步提升模型的多模态融合能力。
PDF
a year ago
MUG: 用户界面上的交互式多模态基础
针对多模态界面对话交互中的语言歧义问题,本文提出了一种新的交互式任务 MUG,并构建了一个包含 77820 组人类用户和智能 Agent 交互的实验数据集,通过离线和在线策略进行评估,实验结果表明允许迭代式交互可以显著提高任务完成率。
PDF
2 years ago
Prev
Next