- 浏览后聚焦:整合上下文和细粒度视图用于重复动作计数
提出了一种名为 SkimFocusNet 的双分支网络方法,通过粗略浏览与目标动作匹配的全局信息以及精确逐帧识别重复动作来实现行为计数,并在 Multi-RepCount 数据集上展示了其在多种重复动作无误计数方面的鲁棒性能,取得了最先进的 - CVPRNTIRE 2024 挑战赛短视频 UGC 质量评估:方法与结果
该论文概述了 NTIRE 2024 挑战赛关于短视频 UGC 质量评估(S-UGC VQA)的相关工作,其中提出了多种优秀解决方案,并在从流行短视频平台 Kuaishou/Kwai 获得的 KVQ 数据集上进行了评估。该研究的目的是构建新的 - 关于深度学习技术及其在手写识别中的应用范围的综述
深度学习在手写识别领域的现有研究成果进行了调查,尽管深度学习方法在加快速度和提供准确结果方面取得了显著进展,但根据文献综述,目前的研究发现深度学习仍需解决许多挑战,尤其是在数据标注方面存在问题。然而,手写识别研究预见到深度学习将在图像处理、 - VQA 模型中的注意力模式零 - shot 翻译为自然语言
ZS-A2T 是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相 - 外观为基础的凝视估计的架构和感受野研究
通过调整 ResNet 结构的几个简单参数,我们在三个常用数据集上实现了目光估计任务的最先进性能,其中 ETH-XGaze 上的误差为 3.64,MPIIFaceGaze 上的误差为 4.50,Gaze360 上的误差为 9.13。
- AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别
提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储 - ICCVIDiff-Face: 基于合成的、面向标识条件扩散模型的人脸识别
该研究提出了一种基于条件潜在扩散模型的新方法 (IDiff-Face),用于合成身份生成,以实现面部识别训练中的逼真身份变化,通过广泛评估,该合成基础的面部识别方法在 Labeled Faces in the Wild (LFW) 基准测试 - 对比多任务密集预测
本文提出了一种基于特征对比一致性的多任务对比正则化方法,以解决多任务密集预测的跨任务交互建模问题,并在两个数据集上进行了大量实验,展示了该方法在密集预测方面的优越表现,创立了新的最先进性能。
- 基于图卷积的视觉检索高效重新排序
本文介绍了一种采用图卷积网络的高效接近搜索再排序方法,通过更新特征值来完善视觉检索任务的初步结果,并以状态 - of-the-art 表现获得了在 3 个不同任务的七个基准数据集上的结果。
- CVPR通过假阴性感知对比学习学习音频 - 视觉源定位
本研究提出了一种新的自监督音视频源定位学习策略,名为 False Negative Aware Contrastive(FNAC),旨在缓解真实世界训练中的错误负样本问题。该方法基于对单模态相似性的利用,可以识别类似样本并构建相应的邻接矩阵 - 基于多头特征自适应的整张切片图像分类知识迁移
本文提出了一种多头特征自适应模块,以促进源领域中的知识转移至目标领域,尤其适用于 WSI 分类;实验结果表明,我们的方法在多个数据集上均取得了最先进的性能,远优于从头开始训练的模型,证明了我们提出的方法的有效性。
- 基于块降噪扩散模型的恶劣天气条件下视觉恢复
基于概率模型的图像修复算法,通过引导去噪过程来实现任意尺寸的图像修复。该算法在图像去雪、去雨和去雾等数据集上表现出了领先的性能,并且在实际测试图像方面具有很强的泛化性能。
- RecurSeed 和 EdgePredictMix:弱监督语义分割的单阶段学习已足够
本文提出了一种名为 RecurSeed 的方法来应对弱监督语义分割中的非检测和误检测现象,并且通过一种名为 EdgePredictMix 的新型数据增强方法来表达目标的边缘,从而在 PASCAL VOC 2012 和 MS COCO 201 - CMX: 基于 Transformer 的 RGB-X 语义分割的跨模态融合
本文提出了一种基于转换器的跨模态融合框架 CMX,用于针对自主车辆的 RGB-X 语义分割,结果表明 CMX 可以推广到不同的感知模态,并实现在多个基准数据集上的最新技术性能。
- AAAI作为词 - 词关系分类的统一命名实体识别
利用 W^2NER 架构和 2D 卷积等方法,将命名实体识别 (NER) 统一为一个二维网格,通过分类识别实体词之间的关系,取得在 14 个基准数据集上显著的改进。
- 学习文本人物搜索的语义对齐特征表示
本文提出了一种基于语义对齐的嵌入方法,采用多头注意力模块和特征聚合网络进行特征对齐,以实现对于文本描述的行人图像搜索,并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。
- MMJABER 和 SABER:初级和高级阿拉伯 BERT
本文介绍了 JABER 和 SABER 代码库,提供了分别面向初学者和高阶研究者的两种预训练语言模型。我们的实验证明,在 ARABIC NLU 任务中,与预训练的 ARABIC BERT 模型相比,基于 JABER 和 SABER 的语言特 - WSDM知识增强型体育比赛摘要
本文介绍了 K-SportsSum,它是一个由大规模比赛实时评论和体育新闻构成的新数据集,并提出了一种知识增强式总结器,利用实时评论和知识来生成更具信息量的体育新闻,实验证明了我们的模型达到了新的最高水平。
- CVPR自导和互导学习用于少样本分割
本篇文章介绍了一种简单但有效的自导学习方法,用于提高查询图像的分割性能,特别是在 few-shot 分割任务中。同时,也提出了一种新的交叉引导模块,用于改善多次采样的分割结果。实验结果表明,该方法在 PASCAL-5i 和 COCO-20i - AAAI面向方面情感三元组提取的双向机器阅读理解
本研究提出了一种基于双向 MRC 框架的多轮阅读理解方法,以解决 Aspect sentiment triplet extraction 任务中各子任务之间关联的挑战,并在四个基准数据集上证明了其优越的表现。