- CVPR无需参数的在线测试时间自适应
为了使现有的视觉模型适应于不同的下游场景,本文探讨了在线测试时间自适应方法在各种真实世界场景下的表现,并针对该方法的局限性提出了一种特别保守的方法 —— 使用 LAME 目标来解决问题,并通过高效的凸凹过程求解该目标,从而使其在场景中表现更 - 通过敏感性分解的几何角度对神经校准进行定位
本文提出了一种几何方法,通过几何敏感分解(GSD)和分类器的角相似性,将一个样本特征嵌入的模和相似性分解为实例相关和实例无关组件,并在几种常见视觉模型上证明了该方法的有效性。
- ICCVOmnidata:基于 3D 扫描的多任务中层视觉数据集的可扩展流水线
本研究介绍了一种从 3D 扫描中参数化采样和呈现多任务视觉数据集的管道,生成的数据能训练出具有良好性能的深度估计和表面法向估计网络,工具和数据可通过链接下载。
- 多模态开放领域对话
本文旨在研究结合先进的开放域对话代理和视觉模型,以实现多模态对话的目标,研究不同的图像融合方案和域自适应预训练和微调策略,并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型,而且在纯文本对话方面表现也和其前身 BlenderBot - 稳定且表现力强的递归视觉模型
本文提出了一种无需牺牲模型容量和设计复杂度,实现递归处理步骤恒定内存复杂度的学习算法 C-RBP,该算法使递归视觉模型能够探测到长距离的空间依赖关系,并在 MSCOCO 的大规模全景分割挑战中具有比主流前向方法更好的效果。
- ICML线性模式连通性与彩票票证假说
研究神经网络优化是否在不同的 SGD 噪声样本下优化到相同的线性连接最小值;发现标准视觉模型在训练早期就变得稳定了,IMP 只有在稳定下来 SGD 噪声时才能达到完全准确性。
- 使用分层原型的可解释图像识别
通过使用根据预定义的分类法层次化组织的视觉原型模型,可以实现解释性地对图像进行分类,使得该模型能够对来自先前未见过的类别的图像进行解释性地分类。
- 使用已学习优化器使模型对输入噪声具有鲁棒性
通过元训练学习的优化器对图像分类模型进行训练,以使其对常见图像污染更加健壮,并且发现这种方法提供了一种有效的改善深度学习模型鲁棒性的方法。
- 从预告片到剧情:从电影中高效学习的方法
该研究通过设计视觉模块和时间分析模块,提出了一种从电影数据中学习视觉模型的替代方法,可以通过预告片学习视觉模块,通过电影数据学习时间分析模块,大大减少学习成本的同时还能够保留长期的时间结构和有效的视觉特征。
- 在 Hashtag 监管中分离自我表达和视觉内容
本文介绍了一种基于联合分布的图像标记方法,该方法能够有效地解决用户提供的主观性标签在图像标记和检索过程中带来的问题,并提出了一种用户条件检索和标记方法。