- CVPRABCNet: 自适应 Bezier 曲线网络的实时场景文本定位
本研究提出在文字检测和识别中应用自适应贝塞尔曲线网络 (ABCNet) 以适应任意形状文字,通过设计新颖的 BezierAlign 层提取准确的卷积特征。ABCNet 相较于现存方法具有更高的速度和准确性,适用于实时应用。
- CVPR深度蛇用于实时实例分割
本文提出了一种名为 deep snake 的新型轮廓方法,它使用神经网络迭代地变形初始轮廓以匹配对象边界。作者使用循环卷积来进行轮廓上的结构化特征学习,并且根据 deep snake 提出了二阶段流程进行实例分割:初始轮廓建议和轮廓变形。 - RadioUNet: 用卷积神经网络快速估计无线电地图
本文提出了一种高效准确的深度学习方法,名为 RadioUNet,用于估算从一个点 $x$(发射器位置)到平面域上任意点 $y$ 的传播路损。该方法能够学习如何在城市环境下准确地估算路损函数,并且能够在实时应用中快速计算结果。实验结果表明,相 - SteReFo: 基于立体视觉的高效图像重新聚焦
本文提出了一个基于双目图像深度估计和重聚的物理学启示管道,以在移动相机中从全聚焦双目图像中模仿 DSLR 相机的浅景深效果,从而实现在 76 FPS 的实时应用。相对于其他方法,我们的管道同时是可完全区分的、受物理启发的、不受场景内容的影响 - 实时语义分割的特征金字塔编码网络
提出了一种轻量级特征金字塔编码网络(FPENet)来在语义分割任务中平衡精度和速度。通过深度扩张卷积对多尺度上下文特征进行特征金字塔编码块的编码,在解码器中引入了互相嵌入上采样模块以高效聚合高级语义特征和低级空间细节。在 Cityscape - ICCV高性能统一卷积网络视觉目标跟踪
本文提出了一种端到端的框架来同时学习卷积特征并执行跟踪过程,即统一的卷积跟踪器(UCT),该跟踪器通过将特征提取器和跟踪过程都视为卷积操作进行联合训练,使得学习到的 CNN 特征与跟踪过程紧密耦合。在四个具有挑战性的跟踪数据集上进行了实验, - 通过联合优化空间嵌入和聚类带宽实现实例分割
本文提出新的聚类损失函数,结合快速的架构,在保持高准确性的同时,能够在实时应用场景中进行实例分割,取得了 Cityscapes 基准测试的最佳结果,并在 2MP 图像上以 10 fps 以上的速度进行了测试。
- TKD: 活动感知的时间知识蒸馏
我们提出了一种名为 TKD 的新框架,利用深度神经网络基于的模型所选择的视频帧(瞬间的感知)来蒸馏轻量级模型中的时间知识,通过进行两个新的步骤:1)基于 LSTM 的关键帧选择方法;2)新的教师束缚损失设计。使用不同的目标检测方法,在多个数 - 密集融合:通过迭代密集融合实现 6D 物体姿态估计
本文提出了 DenseFusion 框架,使用异构网络结构从 RGB-D 图像中估计已知物体的 6D 位姿,并通过端对端迭代位姿细化进一步提高了姿态估计的精度和实时性。实验结果表明,我们的方法在 YCB-Video 和 LineMOD 数据 - 基于 GCC-PHAT 的近距离麦克风阵列方向估计方法的复杂度和准确性研究
本文研究了各种广义互相关相位变换(GCC-PHAT)方法在一对近距离麦克风中的准确性。我们探讨了基于插值的方法,还提出了一种基于奇异值分解(SVD)的方法。所有研究方法均采用 C 代码实现,并测量执行时间以确定哪种方法最适合于低成本嵌入式硬 - 在线动作检测的时序循环网络
本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文,在线执行行动检测并预测即将发生的行动,实现了累积历史证据和预测未来信息相结合的在线识别方式,并在 HDD、TVSeries - ECCVMobileFace:高效 CNN 回归的 3D 人脸重建
本文提出了一种利用紧凑、快速的 CNN 模型在移动设备上实现实时重构的方法,通过使用传统的形态模型自动注释大量图像以供 CNN 训练,并优化 MobileNet CNNs 模型以改进速度、模型大小和保持最先进的重构精度。
- CVPR从单个视角深度学习的全 3D 物体补全
通过结合深度卷积神经网络体系结构和自编码器,从深度图中隐含学习 3D 几何特征,大大提高了新方法的重建准确度,并使其适用于实时应用。
- ContextNet:探索上下文及细节用于实时语义分割
ContextNet 提出了一种新的深度神经网络架构,利用分解卷积、网络压缩和金字塔表示等技术,实现了高效的全局上下文信息提取和高分辨率分割细节捕捉,从而在保持精度的前提下,降低了内存需求,实现了具备实时性和低存储成本的语义分割。
- IJCAI3D-PhysNet: 学习非刚性对象变形的直观物理
本文提出了基于 3D-PhysNet 框架的物理建模方法,可以对三维物体在外力作用下的变形进行快速预测,并具有材料属性的泛化性,并且通过深度变分自编码器结合敌对训练的方式进行了材料属性的编码,以及通过级联结构对部分视图下的物体变形进行预测。
- ICCVUCT: 实时视觉跟踪的统一卷积网络学习
本文提出了一种端到端的卷积神经网络跟踪框架,既可以有效地学习卷积特征,又可实现跟踪过程,对于实时跟踪效果较佳并在多个基准跟踪数据集上达到了最佳结果。
- TasNet: 用于实时单声道语音分离的时域音频分离网络
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算 - 利用回声状态网络检测广义同步
研究测试了储层计算和普遍同步检测,通过 Rössler 混沌吸引子实现时间序列中的同步和非同步序列的区分,并证明了基于 ESN 的同步检测方法具有在线检测能力,对于监测连续信号的动力学同步变化具有很好的应用前景。
- ICCVChromaTag: 彩色标记与快速检测算法
本文提出一种利用对比颜色来减少误检测、采用灰度来精确定位的标记检测算法 ChromaTag。通过实验发现 ChromaTag 比现有标记算法更快、准确度相似或更高,对实时应用具有重要意义。
- 通过循环传播进行人脸解析
本文提出了结合 CNN 层次表示和基于空间变量递归神经网络的准确标签传播的面部分割算法,能够实现高效的面部图像分析,适用于实时应用。