- 两只长颈鹿在泥地中:利用游戏玩法研究大型多模型中的情景建模
我们将一种最近发展起来的评估模型应用于多模态模型,通过目标导向的游戏来评估模型的性能,我们发现最大的闭合模型在我们定义的游戏中表现相当好,而最好的开放式模型却困难重重。进一步分析发现,最大模型的卓越深层描述能力推动了一些性能。两种模型均有进 - CVPRMeLFusion: 使用扩散模型合成基于图像和语言线索的音乐
音乐综合,机器学习模型,MeLFusion,视觉信息,和 IMSM 对生成的音乐质量产生显著的影响。
- ACLVISTA:可视化文本嵌入用于通用多模态检索
我们提出了一种新的嵌入模型 VISTA,用于通用的多模态检索,该模型在零样本和监督设置下在各种多模态检索任务中都取得了优越的性能。
- 大语言模型权重的视觉感知
通过参数空间对齐,我们提出了一种新颖的方法来表示视觉信息,将其表示为模型权重,并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入,从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法,通 - MindSemantix: 用大脑 - 语言模型解读大脑视觉经历
通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了 MindSemantix,这是一种新颖的多模态框架,使语言模型能够理解脑活动中唤起的语义内容,并形成无缝连接的端到端脑 - 语言模型。
- IJCAI基于场景引导适配器的自然语言推理中解决词语模糊问题
我们提出了一种名为 ScenaFuse 的创新型适配器,它同时整合了大规模的预训练语言知识和相关的视觉信息,用于自然语言推理 (NLI) 任务,从而弥补了传统 NLI 模型仅依赖于独立句子中的语义信息、缺乏相关情境视觉信息的不足,提高了 N - 3AM: 一个模糊感知的多模式机器翻译数据集
通过引入 3AM 数据集,本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题,并通过提供更具含糊性和更多种类的数据集,实现了对现有多模态机器翻译数据集更好的训练效果,进一步促进了多模态学习领域的研究和探索。
- 基于 CNN 编码器 - 解码器框架的压缩图像字幕生成
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “Effici - Wills Aligner: 一个健壮的多主体大脑表示学习器
Wills Aligner 是一个强大的多主体大脑表征学习器,通过解决解剖差异问题,实现了在多主体中高效利用单个模型进行脑表征学习,并在粗粒度和细粒度的视觉解码任务上取得了最先进的表现。
- FastPerson: 通过有效的视频摘要提升视频学习,保留语言和视觉背景
快速理解冗长的讲座视频对于时间有限、兴趣有限的学习者提高学习效率非常重要。为此,我们提出了 FastPerson 视频摘要方法,该方法考虑了讲座视频中的视觉和听觉信息,通过利用音频转录、屏幕上的图像和文本创建摘要视频,最大限度地减少了学习者 - 一种用于动态视觉刺激生成的时空风格迁移算法
图像研究中,我们引入了动态视觉刺激生成框架的 Spaciotemporal Style Transfer 算法,它基于双流深度神经网络模型,能够生成与自然视频的低级时空特征匹配的模型变形器,缺乏高级语义特征,成为研究对象识别的有力范例。
- 使用专家混合模型进行视频关系检测
利用混合专家方法的 MoE-VRD 在视觉关系检测中展示了较优的性能,通过条件计算和可伸缩性能显著增强了神经网络容量。
- 对文本数据集评估多模态翻译模型的理由
提出了一个评估框架,用于评估多模式机器翻译模型在利用视觉信息辅助翻译任务和翻译复杂句子方面的能力,并通过使用 CoMMuTE 评估框架、WMT 新闻翻译任务测试集和 Multi30k 测试集来评估多模式机器翻译模型的性能,发现这些模型在面对 - COLING释放不平衡模态信息的力量:多模态知识图谱补全
多模态知识图谱补全的方法 AdaMF-MAT 结合结构信息、视觉信息和文本信息,通过自适应模态融合和模态对抗训练实现对不平衡模态信息的充分利用,在三个公开数据集上超过 19 个最新方法并实现了新的最佳结果。
- 多模态大型语言模型中的图推理图渲染
本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性,并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。
- VisualWebArena: 在现实视觉网络任务中评估多模态代理
通过对多模态网络代理的性能进行评估,我们引入了 VisualWebArena,它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估,并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距 - 小型语言模型与增强式视觉词汇的相遇
在这篇论文中,我们提出了一个小型的 Vary-toy 模型,它基于 Qwen-1.8B,通过引入改进的视觉词汇表,利用物体检测驱动的积极样本数据替换自然图像的负样本,使模型具备 Vary 的所有特征,并更充分地利用词汇网络的容量,从而能够高 - 通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展
通过将 BERT 模型的上下文表示与视觉信息进行融合,GroundedBERT 方法在语言任务中明显优于基准模型,解决了语言模型在视觉语境处理中的限制问题。
- CVPR用于在连续空间中执行自然语言指令的取送任务的完全自动化任务管理框架
本文旨在开发一个能够根据视觉信息来执行任务的框架,以响应自然语言指令进行带有物体接地的取物和搬运(FCOG)任务。为了解决现有框架的局限性,我们提出了一个完全自动化生成、执行和评估 FCOG 任务的框架,并引入了将任务划分为四个不同子任务的 - 基于视觉信息的人群仿真模型研究 —— 基于时空卷积网络
本文提出了一种基于视觉信息的众包模拟模型(VID),该模型通过使用先前的社会视觉信息和个体的运动数据来预测行人下一时间步的速度。通过测试该模型在具有不同几何结构的三个公共行人运动数据集上,结果显示该模型在适应不同几何情景方面的能力得到了提升