基于深度神经网络的多级纹理编码和表示(MuLTER)
本文提出了一种基于深度学习的纹理编码网络 ——Deep-TEN,该网络集成了一种编码层,并通过端到端的学习框架直接学习词汇表和编码,支持多数据集联合训练,具有很好的纹理和物质识别性能。
Dec, 2016
我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架,用于同时学习多个高级视觉任务,包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型,利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测,并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型,显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点,并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。
May, 2022
本文通过引入 Local Texture Estimator (LTE) 的方法,使 implicit function 可以在连续的过程中捕捉细节,在 2D Fourier 空间表征图像纹理,达到了显著的图像超分辨率重建性能,并且在运行时间上比以往的方法更高效。
Nov, 2021
本文提出了一种新的深度网络(MldrNet),可以通过图像语义、图像美学和全局与局部视图的低级视观特征来学习图像情感分类的多级深层表示。实验表明,该方法在分类准确性方面至少优于现有最先进的使用深度特征或手工特征的方法。
Nov, 2016
本文提出了一种深度图像抠图模型,其中利用低阶但高清晰度的纹理特征提供微观细节的恢复,并设计了一种独立的不会下采样的 “Textural Compensate Path” 来提取精细的细节,较之前的方法在 “Composition-1k” 数据集上有较好的表现。
Jan, 2021
本文介绍了一种新颖的分层时空方向表示,用于时空图像分析,并将多层 ConvNets 的优点与更可控的时空分析方法相结合。它的一些关键方面是无需学习,采用理论推导进行设计,并具有循环性质、交叉通道特征汇集和层级结构。它在动态纹理识别方面性能表现优异。
Aug, 2017
本研究提出了一个框架,该框架将多种基于纹理的技术与 CNN 主干结合起来,以提取与图像纹理相关联的最相关特征,使模型可以以自我选择的方式进行训练,并在几个基准数据集上展现了最新的成果。
Jun, 2022
本文提出了一种高精度、内存高效的视频和语言理解模型 MuLTI,通过特征采样和注意力模块实现了高效而有效的特征融合,引入了基于注意力的适配器来微调编码器的浅层特征以提高模型性能,最后引入了一种新的预训练任务 Multiple Choice Modeling 来增强模型对齐视频和文本的能力。该模型在多个数据集上实现了最新的性能,实现和预训练模型将被发布。
Mar, 2023
本文提出了一种多尺度匹配网络,该网络可以对邻近像素之间微小的语义差异进行敏感的多尺度匹配,并利用深度卷积神经网络的多尺度结构学习判别像素级特征。实验结果表明,该方法在三个流行的基准测试上具有高计算效率并达到了最先进的性能。
Jul, 2021