- 多分辨率融合的全自动颅面测量地标检测
针对侧面头颅 X 射线图片的颅测定点检测在特定牙科疾病诊断中起着关键作用,通过以多个分辨率作为输入整合多种感受野的图像金字塔结构来训练一系列具有不同感受野的模型,其对不同的定点具有不同的检测准确率影响。此外,我们还采用了多种数据增强技术来增 - MM朝向视觉分类学的拓展
本文提出了 “视觉分类法扩展”(VTE),将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务,以聚类文本和视觉语义。除了各自的任务外,我们还引入了超原型约束,整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上 - CVPR提升文本 - 视觉问答中的文本表达
通过结合 TextVQA 和 VQA 数据集,我们提出了一种方法,在文本和图像特征之间增加了理解和关联性,从而提高了对问题的回答准确性。
- 基于深度学习模型的驾驶策略预测
本项目实现了一个端到端系统,该系统接收来自普通摄像头的视频帧的综合视觉特征和来自点云扫描仪的深度信息,并预测驾驶策略(车辆速度和转向角度)。通过与真实世界经验丰富的驾驶员的标准行为进行比较,我们验证了我们系统的安全性。我们的测试结果表明,在 - 利用多个描述特征进行强韧少样本图像学习
通过使用大型语言模型自动列举每个类别的多个视觉描述,并使用视觉 - 图像模型将这些描述转化为每个图像的多个视觉特征集,然后使用稀疏逻辑回归选择相关特征子集进行分类,该方法在直观表示相关特征和少样本学习任务中表现出色,并在基于微调的方法中在分 - LPN:语言引导原型网络用于小样本分类
本文提出了一种基于语言引导的原型网络 (LPN),通过引入语言模态和计算视觉特征向量之间的相似性,从而改进了少样本分类任务。实验结果表明,该方法在基准数据集上具有与最先进方法相当的竞争力。
- 自我中心的分层视觉语义
本文提出了一种算法,通过递归识别物体的视觉属于和视觉特征来实现物体识别,从而实现了基于词义层次结构的物体识别,进一步推动了人机交互的研究。
- 家长和孩子:区分多模态深度伪造图像与自然图像
本文通过系统研究最新扩散模型生成的虚假图片的真实性,分析其图像的低层特征和用作种子的文本说明的语义作用,并提供了一个新的包含约 600k 张图像的数据集 COCOFake。
- 基于双分支网络的情感反应强度估计
本文提出了一种解决第五届野外情感行为分析(ABAW)中 Emotional Reaction Intensity(ERI)挑战的双分支基于多输出回归模型,利用空间关注更好地提取视觉特征,利用 Mel-Frequency Cepstral C - 面向多模态摘要生成的基于摘要导向视觉建模
本文提出通过辅助任务来改善多模态主动摘要中的视觉特征质量,包括视觉到摘要任务和掩蔽图像建模任务,从而优化多模态主动摘要模型。实验结果在 44 种语言中验证了该方法的有效性和优越性。
- EMNLP基于指南录定位的 G^3 技术
该篇论文研究了如何通过使用人类编写的指南书中的知识来改善地理定位任务,并提出了一种通过使用 StreetView 图像数据集和 GeoGuessr 的文本指南进行地理定位的方法,该方法可以通过从指南书中自动提取的线索来预测每张图像的国家,并 - 如何以迁移学习方式进行迁移
本文探讨了深度学习中的迁移学习的效果与代价,结果提供了关于使用迁移学习的指南。
- MM基于内容的图形隐私顾问
本文提出了一个基于场景信息和物品基数的图像隐私分类器 ——Graph Privacy Advisor,通过简化现有图形模型和提取最具信息量的视觉特征,使用更有效的低维特征取代高维图像特征,解决了有关偏差先验信息的问题。
- EMNLPLVP-M3: 多语言多模机器翻译的语言感知可视提示
本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务,通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题;通过建立两个新的多语言 MMT 基准数据集,并提出了一种基于视觉提示的有效基准模型 L - ECCVPERI: 野外场景中基于部位的情感识别
利用面部表情和身体姿势,提出了方法 PERI,在情感识别网络的中间特征上使用上下文注入块。与现有方法相比,PERI 在 EMOTIC 数据集上实现了显着改进。
- CVPR连续手语视频中的主题检测
本研究介绍了手语主题检测的新型任务,基于大规模视频数据集 How2Sign,提供该任务的强基线以及常用视觉特征的比较。
- ECCVGRIT:使用双重视觉特征的更快更好的图像字幕转换器
本文提出了一个名为 GRIT 的纯 Transformer 神经架构,用于图像字幕生成,它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明,GRIT 在推理准确性和速度方面优于先前的方法。
- ECCV基于几何特征的视频多人物体交互识别
本研究提出一种基于几何特征的图卷积网络用于人 - 物交互识别,结合了人体姿态和物体位置等几何要素与视觉特征,在多人和多物体的情况下显著提高了识别准确率,并构建了新的多人人 - 物交互数据集 MPHOI-72。
- 一种基于骨架的图卷积神经网络用于人 - 物交互检测
本研究提出了一种名为 SGCN4HOI 的骨架感知图卷积网络,能够通过图卷积捕捉人体骨骼关键点与物体关键点之间的细粒度结构化交互,并使用从人物 - 物品对中获取的几何特征与视觉特征和空间配置特征,进一步融合这些几何特征,以便更好地保留对象结 - ICCV深度度量学习的不同损失函数是否导致相似的学习特征?
本文研究深度度量学习中的损失函数对于网络关注图像相似区域或特征的影响,并采用两步分析方法提取不同模型架构在不同损失函数下的学习视觉特征,结果表明,不同损失函数会引导模型学习不同的特征,分类型和排名型的损失函数存在差异,而某些似乎不相关的图像