多轮多模态指称及锚定
本研究通过学习 MMD 数据集并实现基于知识库的多模态对话模型解决了多模态基于搜索的对话系统中的新挑战,该模型将编码的知识库表示附加到解码器输入中,从而在文本相似性测量方面获得了高于强基线的表现,其中三个 BLEU 点仅由于使用了来自知识库的附加信息。
Oct, 2018
基于精确的指代指令,我们提出了 ChatSpot,这是一个统一的端到端多模态大型语言模型,支持多种形式的交互,包括鼠标点击、拖放和绘制矩形框,从而提供更灵活、无缝的交互体验。实验证明 ChatSpot 具有良好的性能。
Jul, 2023
通过引入一个新的框架 MedRG,该研究利用多模态大型语言模型预测关键短语,并结合视觉编码器 - 解码器生成相应的边界框,该方法在医学短语定位任务上的表现优于现有最先进技术。
Apr, 2024
通过创建 Med-GRIT-270k 数据集和使用多任务学习,我们提出了用于生物医学的指示型多模态大型语言模型 (BiRD),并通过大量实验证明了该数据集和 BiRD 模型在交互能力和智能生物医学助理的探索和开发上具有显著的参考价值。
Jun, 2024
最近在大型多模态模型(LMMs)的重要突破中,人们越来越意识到视觉聊天的基础能力。然而,尽管近期的努力使 LMMs 能够支持基础能力,但它们的聊天表现通常是独立的,并且在被要求进行基础时其聊天性能显著下降。该问题的根源在于缺乏一个用于基础视觉聊天(GVC)的数据集。为了解决这个问题,我们创造了能够结合基础和聊天能力的 GVC 数据。为了更好地评估 GVC 的能力,我们引入了一个名为 Grounding-Bench 的基准。此外,我们提出了一种模型设计,可以通过将分割模型与语言模型相连接来支持 GVC 和各种类型的视觉提示。实验结果表明,我们的模型在 Grounding-Bench 上优于其他 LMMs。此外,我们的模型在经典的基础基准测试中,如 RefCOCO/+/g 和 Flickr30K 实体中,也取得了有竞争力的性能。我们的代码将在此 https URL 发布。
Dec, 2023
BuboGPT 是一种多模态的 LLM,具有视觉定位和文本 - 图像 - 音频理解的能力,通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下,BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。
Jul, 2023
Kosmos-2 是一种多模态大型语言模型,其新功能包括感知物体描述并将文本与视觉世界联系起来,此工作对于实现人工通用智能是关键的一步,可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。
Jun, 2023
本文提出一个基于神经网络的对话模型,用于协同解决局部可见参考游戏。该模型通过结构化的参考解析器精准地理解对话内容,利用递归记忆处理复杂任务并采用合理的生成策略,大幅提高了任务完成率。实验结果表明,该模型相对于同领域前沿技术取得了显著的性能提升。
Sep, 2021
提出了一种新的多模式基准测试方法 MMBench,通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023
针对多模态界面对话交互中的语言歧义问题,本文提出了一种新的交互式任务 MUG,并构建了一个包含 77820 组人类用户和智能 Agent 交互的实验数据集,通过离线和在线策略进行评估,实验结果表明允许迭代式交互可以显著提高任务完成率。
Sep, 2022