- ACL基于多模态上下文语义解析的语音处理
通过将多模态输入与先前的语境相结合,我们介绍了一种称为 SPICE 的任务,旨在提高人工智能代理程序的上下文意识。SPICE 不仅仅是传统语义解析,还提供了一种结构化、可解释的框架,用于根据新信息动态更新代理程序的知识,反映人类沟通的复杂性 - 多模态模型架构的演进
该研究识别和描述了当今多模式领域中四种主要的多模式模型架构类型,分类这些模型能有助于监测多模式领域的发展,并对四种特定的架构类型提供了细致的讨论和详细的鉴别方法。
- 隐式多模态对齐:关于将冻结的 LLM 泛化到多模态输入
大型语言模型(LLMs)对多模态任务表现出令人印象深刻的性能,然而,我们仍然缺乏对其成功的适当理解。本研究将冻结的 LLMs 公开显示为图像、视频、音频和文本输入,分析其内部表示以了解其在文本输入之外的泛化能力。
- G-VOILA: 日常情境下的凝视辅助信息查询
通过在用户的注视、视野和语音自然查询之间实现协调,G-VOILA 引入了一种新颖的注视促进信息查询范例,以促进更直观的查询过程,并在用户建模研究和效果验证研究中证明了其有效性。
- 多方面医学图像解读的通用学习器
提出了一种名为 MedVersa 的医学图像解释通用学习器,通过利用大型语言模型作为可学习的协调器,支持视觉和语言监督学习以及多模态输入,在医学图像解释领域得到了最先进的性能,在临床决策辅助方面具有潜力。
- LLM-AD: 基于大型语言模型的音频描述系统
介绍了一个利用 GPT-4V(视觉)的自动化音频描述生成流程,通过使用现成组件实现,不需要额外训练,生成符合自然语言音频描述生产标准的音频描述,同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息,在 MAD 数据集上表现与基于学习 - StyleBooth: 多模态指导下的图像风格编辑
给定一张原始图片,该论文介绍了一种用于图像编辑的综合框架,使用多模态指令和高质量训练数据,提供了一种方法来生成按照指令进行编辑的图片。通过整合编码的文本指令和图像范例作为扩散模型的统一条件,该方法实现了根据多模态指令对原始图片进行编辑的功能 - SpikeMba:多模态脉冲显著性蛇为时态视频定位
通过融合脉冲神经网络和状态空间模型,引入一种新颖的多模态脉冲显著性 Mamba 模型,用于有效地捕捉多模态特征之间的细粒度关系,在视频序列的深层语境理解和准确定位显著性建议中取得了显著的效果。
- 运动乐章:将静态图像转化为动态视频
通过将语义和动作线索整合到扩散模型中,我们引入了一种用于视频生成的新方法,它显著提升了视频质量、动作精度和语义连贯性。
- CVPRPanda-70M:使用多个跨模态教师为 70M 视频加上字幕
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为 Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
- CVPRPolos: 从人类反馈中进行多模态度量学习用于图像字幕生成
提出了一种基于人类反馈训练的 Polos 的自动评估度量标准用于图像字幕模型,该度量标准从多模态输入中计算得分,利用通过大规模对比学习训练的嵌入进行平行特征提取机制。通过在 Polis 数据集上取得的最新成果,证明了该方法具有效果和鲁棒性。
- RoboCodeX: 机器人行为综合的多模态代码生成
提出了一种用于广义机器人行为综合的树状多模态代码生成框架 RoboCodeX,通过将高级人类指令分解为多个以物体为中心的操作单元,并应用代码生成来实现对各种机器人平台的广义化能力。通过预训练和迭代自更新方法引入了专门的多模态推理数据集,以增 - 探索视觉 - 语言模型的边界:当前方法和未来方向的综述
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
- 合成情感控制的多模态文本和图像数据的反馈
通过构建一个大规模的、可控制的多模态反馈合成(CMFeed)数据集,我们提出了一个可控制的反馈合成系统,该系统能够生成文本和图像输入的感情控制反馈,通过使用 transformer 和 Faster R-CNN 网络提取文本和图像特征,并结 - CreativeSynth:基于多模态扩散的视觉艺术创作与综合
通过创新的统一框架 CreativeSynth,将基于扩散模型的多模态输入协调和多任务合作引入艺术图像生成领域,以实现真实世界语义内容的逆向和实时样式转移,精确操纵图像样式和内容,同时保持原始模型参数的完整性,旨在提升艺术图像的保真度和保持 - 红队模拟可视化语言模型
研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距,结果显示这些 VLM 在不同程度上面临红队挑战,并且与 GPT-4V 相比,性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型,性能提高了 10% - 月球计划:以多模态条件实现可控视频生成和编辑
这项研究展示了一种新的视频生成模型 Moonshot,该模型同时考虑图像和文本的多模态输入,在控制视频的外观和几何结构方面具有更好的能力,并通过与预训练图像 ControlNet 模块集成,展现了较现有模型更优的视觉质量和时间一致性,可以用 - VideoPoet: 用于零样本视频生成的大型语言模型
VideoPoet 是一种语言模型,能够从多种信号条件下合成配有匹配音频的高质量视频。该模型采用解码器式 Transformer 架构处理多模态输入,包括图像、视频、文本和音频,通过两个阶段的预训练和任务特定的适应来训练。我们通过实证结果展 - 海豚:驾驶的多模态语言模型
Dolphins 是一种新颖的视觉 - 语言模型,具有人类般的理解和反应能力,用于作为对话式驾驶助手,能够处理多模态输入以生成相应的指令。通过在驾驶领域构建特定的指令数据,Dolphins 能够全面理解复杂且多样的开放式驾驶场景,并解决各种 - 仅需字节:在文件字节上直接运行的 Transformer
本文介绍了一种称为 ByteFormer 的模型,该模型能够直接使用文件字节进行分类,并能够处理多模态输入和进行隐私保护推理。使用特定的输入表示进行推理时,ByteFormer 具有零精度损失的功能,可以处理一些模糊的输入,并可以通过一个部