- 关于利用三维手势姿势进行动作识别的实用性研究
手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模,该方法在处理效率和准确率方面具有显著优势,并在自我中心行为识别方面取得了最新的最好性能。
- 高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类
提出了一种名为 AVT 的新颖的音视频识别方法,利用视频 Transformer 在时空上的表示来提高动作识别的准确性,并通过音视频瓶颈 Transformer 减少跨模态复杂度,融合自监督目标,而进一步引入一个屏蔽音频片段损失,以学习 A - 文本到图像生成的丰富人类反馈
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
- UniAR:统一人类视觉内容中的注意力与反应预测
人类行为建模方面取得的进展涉及对隐含的、早期的感知行为(如注意力)以及明确的、后期的行为(如主观评分 / 喜好)的理解。然而,大部分先前的研究都集中在隔离地建模隐含和明确的人类行为上。我们能否建立一个统一的人类注意力和偏好行为模型,可在各种 - 遥感图像目标检测的跨通道注意力多模态变换器
通过多模式远程感知数据进行对象检测,提出了一个基于多模式变换器的解决方案,包括交叉通道注意力模块和结合卷积层和固定维度的新架构,以实现细粒度到粗粒度的表示生成,并在广泛实验中验证了其有效性和适用性。
- EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练
本文介绍了一种高效的视觉 - 语言基础模型 EVE,该模型通过一个统一的预训练任务,在共享的 Transformer 网络中编码了视觉和语言,并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图 - 音频感知的查询增强变换器用于音频 - 视觉分割
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
- 基于帧间交互和跨模态相关性的视频目标分割
本文提出了 IFIRVOS 框架用于改善视频中的目标分割,其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性,从而提高了分割结果的准确性和模型的性能。
- 使用多模态 Transformer 进行基于帧的直播流点击率预测
本文提出了一种基于多模态 Transformer 的 ContentCTR 模型,采用帧级别的 CTR 预测来充分利用视觉帧、音频和评论等多模态信息,借助具有一阶差分约束的新型成对损失函数来利用亮点和非亮点间的对比信息,以及基于动态时间规整 - 学习鲁棒的视觉语义嵌入,实现通用的人员再识别
该论文提出了一种叫做 MMET 的多模态等价 Transformer,可用于更加鲁棒的视觉 - 语义嵌入学习和人物重新识别,同时还引入了一种动态的遮罩机制,叫做 MMM,它可以加强其他模态的特征学习,从而提高性能。
- 时间丰富的多模态转换器检测抑郁症
本文提出了一种基于预训练模型,使用图像和文本嵌入的弹性时间丰富多模态变压器模型,用于从社交媒体消息中检测抑郁症,结果表明该方法超越了其他方法,达到了 0.931 F1 值,是目前最先进的方法。
- 并联连接变分自编码器的多模态变换器
本文中我们提出了一种利用并行连接架构的多模式变压器,用于版权归属信息检索。实验结果表明该模型可以在不需要额外训练的情况下输出相对优质的结果。
- 多模态转换器:将临床记录与结构化电子病历数据融合,可解释的住院死亡率预测
本论文提出一个新型的多模态变压器,用于融合医疗记录数据和医生的述职记录来预测住院死亡率,并使用可视化方法展示关键的医疗记录和医疗数据特征,进而提高了诊断的可解释性和预测的精度。
- DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤 - ECCV多模态变长记忆转换器用于视觉语言导航
此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器(MTVM)方法,用于模拟时间上下文,通过在存储器库中直接存储先前激活来跟踪导航轨迹,并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估 - EMNLP视频和文章的联合多媒体事件抽取
本篇论文介绍了一种新的视频多媒体事件提取(Video M2E2)任务以及两个创新组件,用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息,未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法 - CLIP-It!基于语言指导的视频摘要
CLIP-It 是一种单一框架用于通用和基于查询的视频摘要,使用语言指导的多模式变压器来学习评分视频中的帧,并可以扩展到无监督环境。 在标准的视频摘要数据集和基于查询的视频摘要数据集上均表现出显著的优异性能。
- ICCV视觉语言导航的史诗变压器
本文提出了一种名为 Episodic Transformer (E.T.) 的多模态 Transformer,可解决使用自然语言指令进行交互和导航所面临的挑战。通过采用合成指令来改善训练和决策,使得 E.T. 能够处理历史信息,以实现复合式 - AAAI文本和视频的桥梁:用于视频音频场景感知对话的通用多模态 Transformer
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
- CVPR使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA
本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。