- 学习判别模型预测跟踪
我们提出了一种基于区分性损失函数的端到端可训练的视觉跟踪器,可以有效地利用目标和背景外观信息进行目标模型预测,并在 6 个跟踪基准测试中取得了新的最好成绩。
- CVPR具有空间和时间嵌入的多人关节跟踪
本文提出了一个统一的框架,用于实现多人姿态估计和跟踪,包含两个主要组件 SpatialNet 和 TemporalNet,其中 SpatialNet 在单帧中实现了身体部位检测和部位级别的数据关联,而 TemporalNet 则将连续帧中的 - CVPRPoseFix: 通用人体姿势细化网络,无模型依赖
本文提出了一种模型无关的姿态精炼方法,利用现有的错误统计信息产生合成姿态来训练模型,而无需其他方法的代码或知识,并在测试阶段通过各种最先进的姿势估计方法改进性能。
- 基于相似性保持的人物再识别图像域自适应
本文使用 “学习 via 翻译” 框架研究人员重新识别中的领域适应问题,提出一种相似性保持的生成对抗网络 (SPGAN) 和其端到端可训练版本 eSPGAN 来解决此问题。在实验中,展示了两个大规模人员重新识别数据集上的新颖领域适应结果。
- E2E-MLT: 一种非约束的多语言场景文字端到端方法
提出了一种端到端可训练的(完全可区分的)多语言场景文本本地化和识别方法,该方法基于单个完全卷积网络(FCN),共享层用于两个任务。E2E-MLT 是首个发表的用于场景文本的多语言 OCR。虽然在多语言设置中进行了训练,但与仅训练英文场景文本 - CVPR基于帧递归的视频超分辨率重建
本研究提出了一种端到端可训练的帧递归视频超分辨率框架,使用先前的高分辨率估计来超分辨率下一个帧,自然鼓励时态一致结果并降低计算成本。
- FOTS: 基于统一网络的快速文本定位
此篇论文介绍了一种基于 Fast Oriented Text Spotting (FOTS) 网络的端到端可训练的文本检测和识别方法。使用 RoIRotate 的共享计算和视觉信息策略获得了比两阶段方法更优越的表现,并且提出的方法在 ICD - ICCVAMTnet:端到端可训练深度架构的动作 - 微管回归
本论文提出了一种新的深度神经网络框架,称之为 3D-RPN 网络,能够在纯粹利用外观的情况下有效地编码动作的时间方面。这个模型是端到端可训练的,可以在单个步骤中联合优化动作定位和分类。在测试时,该网络预测了包含两个连续帧的微小管,而新算法则 - ICMLOptNet: 神经网络层中的可微分优化
OptNet 是一种深度神经网络体系结构,可以将优化问题作为单独的层集成到大的可端到端可训练深度网络中,并且可以使用灵敏度分析、双层优化和隐式差分等技术来确切地区分这些层,而且能够学会硬约束优化问题,比其他神经网络工具效果更好。
- AAAITextBoxes: 单个深度神经网络实现的快速文本检测器
该研究论文提出了一种名为 TextBoxes 的端到端可训练快速场景文本检测器,它能够在一次网络正向传递中高效准确地检测场景文本,除了标准的非极大值抑制外,不需要任何后处理。结合文本识别器后,TextBoxes 在单词定位和端到端文本识别任 - 门控端到端记忆网络
本文提出了一种新的、受计算机视觉中连接快捷原则启发的端到端可训练内存网络 (End-to-End trainable Memory Networks) 结构 ——Gated End-to-End trainable Memory Netwo - ACL基于网络的端到端可训练任务导向式对话系统
本文介绍一种基于神经网络的端到端可训练的目标导向对话系统,以及一种新的数据收集方法,该方法基于一种新型的管道式 Wizard-of-Oz 框架。该方法可用于开发对话系统,帮助用户在餐厅搜索领域自然地交流并完成任务。
- CVPR自动矫正的鲁棒场景文本识别
我们提出了 RARE(具有自动矫正的强韧文本识别器),这是一种专门设计的深度神经网络,用于识别不规则文本,并能在多种基准测试上取得最先进或高度竞争性的表现。
- ICLR物体检测和实例分割的分解学习
本论文提出了一种新的端到端可训练深度神经网络结构,在不需要预处理或者后处理的情况下,仅仅依靠一个网络评估就可以生成正确数量的对象实例和其边界框,对多数字图像中数字的检测、分割和 KITTI 基准数据集中的车辆检测任务显示了优越的性能。
- 端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。