- TartanAviation:终端空域操作的图像、语音和 ADS-B 轨迹数据集
TartanAviation 是一个开源的多模态数据集,集中在终端区域空域操作上,提供了图片、语音和 ADS-B 轨迹数据,可用于在空中交通管制系统中集成人工智能和机器学习技术以及推进自主飞行器的采用。
- ICLR关键补丁提供者:关键补丁包含丰富信息
本研究引入一种名为 Key Patch Proposer (KPP) 的新型算法,用于在图像中选择关键补丁,无需额外训练。通过重建和分类任务,我们的实验证明了 KPP 捕获语义信息的强大能力。KPP 的有效性表明其在语义分割的主动学习中有潜 - ACL描述图像:量化和预测视觉语言处理中人类信号的变异性快慢
图像与人类行为之间存在复杂的关系,人类的行为表现如眼动和图像描述时开始描述的时刻等表明了丰富的变化。然而,目前预训练模型的训练中几乎完全忽略了此类变化,因此需要进一步研究。本文利用同时收集的荷兰图像描述和眼动数据进行了研究,探索了视觉 - - 去扩散使文本成为强大的跨模态接口
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 - DynamiCrafter: 用视频扩散先验动画化开放域图像
通过将静止图像与动态相结合,提供更具吸引力的视觉体验。
- EWasteNet: 一种用于电子垃圾分类的双流数据高效图像转换器方法
本文提出了一个包含八种不同类别电子设备图像的全面数据集 ——E-Waste Vision Dataset,并介绍了 EWasteNet,一种基于数据有效的图像转换器(DeiT)的精确电子废弃物图像分类的新型两流方法。该方法通过 Sobel - C-CLIP:用于缩小描述性文字之间差距的对比图像 - 文本编码器
通过训练对比图像 - 文本编码器,利用明确的评论式对提高检索结果的准确性进行了大幅改进,并且这种改进可扩展至多种非英语语言。
- 差分模型:基于体积的立体匹配的扩散模型
通过将扩散模型应用于立体匹配,本研究提出了一种名为 DiffuVolume 的方法,通过过滤成本体积以提高性能。
- 利用 ConViT 进行静态图像中的人类动作识别
通过引入 Vision Transformer(ViT)作为卷积层,本文提出了一种新的模块,用于在图像中提取各个区域之间的关系,并将其应用于动作识别模型,实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了 - 无人机视觉检测和跟踪方法综述
本论文介绍了用于检测和跟踪无人机或飞行器的技术,这些技术依赖于收集无人机的位置、速度和图像测量,然后使用它们进行检测和跟踪,同时介绍了混合检测技术。该论文是无人机检测过程中使用的各种方法的快速参考。
- ICLR单正样本多标签学习中标签偏差的理解
该研究介绍了单正多标签学习中标签偏差的研究方法,并提供了新的经验证据,以便使用仅一个正标签的图像进行有效的多标签分类。
- 使用图像、文本和参数数据的多模态机器学习进行车辆评级预测
该研究提出了一种基于多模式学习的汽车评级预测方法,通过同时学习汽车参数规格、文本描述和图像来预测五个汽车评级分数。比较多模式和单模式模型的表现,发现多模式模型的解释能力比单模式模型高 4%-12%。
- 多模态自动事实核查:一项调查
本文调查了自动化事实核查并提出了一个多模式事实核查的框架,其中包含针对多模态误传播的子任务。研究重点在于文字、图像、音频和视频四种在实际事实核查中普遍存在的模态。调查了基准和模型,并讨论了未来研究的局限性和有前途的方向。
- 一石二鸟:图像和视频风格转换联合学习的统一框架
本文介绍了一种基于统一风格转移框架 UnST 和领域交互变压器(DIT)的方法,使得同时能实现对图像和视频完成风格转移任务。实验表明 UniST 在图像和视频领域中与现有方法相比表现更佳,通过简单而有效的轴向多头自我关注(AMSA)获得更高 - SegGPT:上下文中的所有内容分割
SegGPT 是一个通用的模型,通过将各种分割任务转换为图像格式,将多个分割任务统一为一个框架,并通过随机颜色映射的上下文涂色问题进行训练。该模型可以在图像或视频分类下进行任意分割任务,并在各种任务中表现出强大的能力,包括少样本语义分割、视 - ICLR点集图像
本文介绍了一种新的视觉表示范式 - 环境群聚 (Context Clusters),可通过简化的聚类算法在一组未组织的点中提取特征,无需卷积或注意力机制,并提供了可视化聚类过程的令人满意的可解释性。在几个基准测试中,Context Clus - 基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测
本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策 - 使用 REVEL 框架测量黑匣子模型的本地线性解释:以深度学习图像分类为例的研究
本文提出了一种名为 REVEL 的程序,用于评估关于解释性人工智能的质量,并为此定义了一系列度量标准。该程序具有理论上的一致性和描述性能力,并通过在 4 个基准数据集上进行实验证明了其分析力。
- MM混合多属性数据集上的图像美学属性评估
本研究通过构建一个新的图像属性数据集 AMD-A,设计外在属性特征来融合,提出了一种高效的混合多属性图像美学属性评估方法,并利用 EfficientNet-B0 作为骨干网络构建了一个多任务网络体系结构,能够实现美学分类、总体评分和属性评分 - CVPR获取和推断密集全身人 - 场景接触
该研究通过构建一个新的名为 RICH 的数据集,使用 BSTRO 算法从单幅 RGB 图像中直接预测人体与场景的接触,在探索图像中覆盖的区域时,提出了一种新的非局部关系学习方法,并且通过实验证明了其比之前的方法具有更好的性能质。