多视角特征学习
本文提出了一种名为 Deep Sparse Coding 的新的无监督特征学习框架,扩展了稀疏编码到多层体系结构,用于视觉对象识别任务,在不同层次的稀疏编码之间连接一种稀疏到密集的模块,结合卷积神经网络(CNN)可达到最先进的性能表现。
Dec, 2013
本篇论文研究了如何学习从视频中提取运动信息。作者提出可以将空间变换检测看作是检测图像序列和运动序列中的 features 同步,提出了一种基于本地乘法门控的快速学习规则,可以在只需花费特征学习时间的一小部分时间内实现在广泛的运动估计任务中竞争性的性能,并且可以通过一定的方法甚至跑过手工处理的时空特征。作者还揭示了学习同步的过程可以被视为在著名的运动能量模型中进行贪婪参数估计。
Jun, 2013
介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频,该方法能够提取出多视角视频之间的复杂内部和外部关联,实现高效准确的摘要生成。
Jun, 2017
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
该研究提出了一种基于变分自编码器的语义表示方法,实现了对三维语义地图的实时增量建立与空间一致的语义标签融合,可以用于单目关键帧语义映射系统,并能够实现对位姿、几何和语义的联合优化。
Mar, 2019
本文提出了一种多视学习的稀疏编码方法,该方法无缝集成了 Hessian 正则化和判别式稀疏编码,可用于图像注释,通过对 PASCAL VOC'07 数据集进行广泛实验,表明了该方法的有效性。
Jul, 2013
在这篇论文中,我们提出了一种自动编码器架构(WLSC),其潜在表示通过二分图的拉普拉斯二次形式实现了隐式的、本地的谱聚类,生成了一组多样的人工感受野,与 V1 的灵长类动物数据具有相近的一致性,而且也展示了我们的正则化可以被解释为感受野对特定刺激类别的早期专门化,即我们为之后的皮质阶段引入了弱的聚类偏差,这是已知的功能性和空间分离(即拓扑)发生的地方。这些结果表明,在对 V1 及其之后的特征分离进行描述时,对感受野和放电率进行空间正则化至关重要。
Nov, 2023
本论文介绍了一种无监督学习方法,将三维形状信息嵌入到单视图图像表示中,通过使用单个 2D 图像的自监督训练目标,在没有人工语义标签的前提下,鼓励表示捕捉基本形状原语和语义规律,最终学习得到一个强大的表示方法,可以成功进行物体识别和 “心理旋转” 操作,成果优于相对应的其他无监督学习方法。
Sep, 2017
本文介绍一种多模态稀疏编码的方法,用于学习多模态共享的特征表示,应用于多媒体事件检测,与其他特征学习方法进行比较,通过 TRECVID MED 2014 数据集的交叉验证分类准确性和平均精度来评估单模态和多模态设置下的特征学习。
May, 2016