- ECCV可解释的图像分类与可微分原型分配
ProtoPool 是一种可解释的图像分类模型,共享类别的原型池,并采用完全可微分的方法将原型分配给特定的类别,同时还引入了新颖的聚焦相似函数,将模型集中于罕见的前景特征,它在 CUB-200-2011 和 Stanford Cars 数据 - MM最大化骨干特征分布以实现高效的少样本学习
本文提出了一种新颖的基于迁移学习的方法,旨在处理特征向量使其更接近高斯分布,加大分类准确性。同时,在具备未标注测试样本的传导式 few-shot 学习中,也提出了基于最优传输启示的算法以进一步提高性能。经过标准化的视觉基准测试,研究发现该方 - ICCVISNet: 集成图像级和语义级上下文进行语义分割
本文提出将图像语义分割中的语境信息分为图片级别和语义级别,分别增强像素表示,在 ADE20K,LIP,COCOStuff 和 Cityscapes 等四个基准测试中实现了最先进的准确性。
- Autoformer: 基于自相关的分解 Transformer 模型用于长期序列预测
本研究介绍了一种名为 Autoformer 的时间序列长期预测模型,它采用了一种新颖的基于自动相关性机制的分解体系结构,用于处理复杂时间序列,取得了超过现有最优结果 38% 的相对改进。
- ACL再次检查:通过视觉蕴涵进行逐步视觉问答
本文提出了一种基于视觉蕴含的选择性 - 重新排名(SAR)渐进式框架解决 VQA 模型的表面相关性问题,通过选取与图像或问题相关的候选答案,并使用视觉蕴含验证每个答案是否可信,实现了对候选答案的有效排序,从而在 VQA-CP v2 数据集上 - 弱指代 grounding 的判别三元组匹配和重建
本文提出了一种基于判别三元组的弱监督指代消解方法,通过该方法,可将查询转换为一个或多个判别三元组,并提出了轻量级的三元组级匹配和重构模块,使弱监督训练比先前的最先进方法轻三倍,速度快三倍,同时在 RefCOCO,RefCOCO + 和 Re - 学习频域逼近用于二值神经网络
本文提出了一种使用正弦函数组合估计傅里叶频率域中的符号函数梯度的方法,同时嵌入噪声自适应模块来弥补近似误差,结果表明该方法训练的二进制神经网络可达到最先进的精度水平。
- 在线动作检测的特权知识蒸馏
本文提出了一种基于特权信息学习的在线动作检测框架,其中包括知识蒸馏方法和 Privileged Knowledge Distillation (PKD) 方法,以缩小信息差并提高学习性能,并在两个常用的 OAD 基准测试 TVSeries - EfficientPose: 一种高效、准确和可伸缩的端到端六自由度多物体位姿估计方法
本文介绍了 EfficientPose,一种用于 6D 物体姿态估计的高效、准确及可扩展的新方法,并提出了一种直接 6D 估计方法的新型增强方法 6D augmentation,相较于其他方法,该方法通过单镜头相机捕捉多个物体的 2D 边界 - 使用温和 Sigmoid 激活函数进行具有差分隐私的深度学习
提出使用 tempered sigmoids 激活函数进行隐私保护训练,取得了 MNIST,FashionMNIST 和 CIFAR10 数据集上新的最优准确率,同时不需要修改学习过程的基本原理或差分隐私分析。
- ECCVJGR-P2O: 基于联合图推理的基于像素偏移预测网络,用于从单个深度图像估计三维手部姿势
本研究提出一种基于像素预测的手部姿态估计方法,采用图卷积网络进行关节图形化推理并将像素偏移量预测与直接关节回归统一进行端到端训练,实现了最先进的准确度,并且在单个 NVIDIA 1080Ti GPU 上以约 110fps 的速度高效运行。
- 多重图网络在抽象图解推理中的应用
本文提出了一种名为 MXGNet 的多层图神经网络,用于解决多面板图解推理任务,它通过对象级别表示、图神经网络和多路复用图等三个强大概念,提取图表中元素的对象级别表示,形成捕捉不同图表面板之间对象之间多个关系的多层多路复用图,并从任务提取的 - 基于特征分布的迁移学习少样本学习方法
本文提出了一种新颖的基于转移学习的方法,通过预处理特征向量使其更接近高斯分布,并利用基于最优输运的算法 (在普遍情况下) 加以利用,证明了该方法在各种数据集、主干体系结构和少样本情形下达到最先进的准确性。
- ICLR基于分类的通用数据异常检测
本文提出了一种基于分类的方法 GOAD 来检测异常数据,同时拓展了基于变换方法的适用性,并且在多个数据集上得到了最新的准确性表现。
- AAAI基于图的异构外部知识推理用于常识问答
本文提出了一种基于知识库和维基百科文本的异构证据自动提取方法以回答常识问题,通过构建图形结构并使用图形卷积网络对邻居信息进行编码并利用图形注意力机制聚合证据来预测最终答案,成功地提高了 CommonsenseQA 数据集上的准确性达到了最先 - 利用主导旋律嵌入技术进行封面检测
本文提出,使用神经网络架构训练每个音轨的嵌入矢量,使计算负担得以减轻。嵌入矢量提取可以脱机进行并存储,而成对比较的任务则简化为简单的欧几里德距离计算。本方法不仅在小型数据集上表现优异,而且在大型数据集上也有着进一步的提升,并且可以在几秒钟内 - CVPR多模式分类网络训练的困难之处是什么?
通过 Gradient Blending 技术实现不同多模态训练的优化,避免了其过度拟合的问题,从而取得多项基准测试任务的最新成果。
- CVPRLP-3DCNN:揭示 3D 卷积神经网络中的局部相位
该论文提出基于局部相位提取方法的 3D 卷积神经网络模型,相对于传统模型具有更高的特征学习能力、参数节省和更高的精度。
- 知识蒸馏的相关性一致性
本文提出了一种新的基于相关性的一致性知识蒸馏框架 (CCKD),通过引入泰勒级数展开的广义核方法捕获实例间的相关性,并在图像分类任务和度量学习任务中实现了最优结果。
- 慢快网络用于视频识别
介绍了 SlowFast 网络用于视频识别,它包括 Slow 路径和 Fast 路径,其中 Slow 路径能捕捉空间语义,Fast 路径能捕捉精细时间分辨率的动态信息,并能在减小通道容量的前提下实现高精度的视频识别。