- AAAI闭环交互的响应式规划和识别
本研究介绍了一种基于闭环交互的智能代理框架,集成规划和识别技术来预测用户的意图并自主决策响应。这种代理可以在交互中监控用户,并解决传统预设响应的局限性。该研究还提出了新的人工智能规划和识别领域的挑战。
- ICCVRepPoints:物体检测中的点集表示
本文提出了一种名为 RepPoints 的方法,它采用一组样本点作为对象的更精细的表示,不需要使用锚点来采样边界框空间,并在检测任务中获得与目前最佳方法相同的效果。
- MM用于识别自发微表情的时空循环卷积神经网络
本研究提出了一种利用深度循环卷积神经网络进行微表情识别的方法,该方法能够捕捉微表情序列的时空变化,相对于现有的其他方法,该方法表现更为优异。
- TextNet:端到端训练的网络,用于从图像中读取不规则文本
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集 - 场景文本检测和识别:深度学习时代
本文总结和分析了深度学习时代场景文本检测和识别方面的主要变化和显著进展,强调了深度学习带来的巨大差异和仍未解决的重大挑战,并收集了相关资源。
- MIDV-500: 移动设备上身份证件分析和识别的视频流数据集
本文介绍了一个 Mobile Identity Document Video 数据集 (MIDV-500),其中包含来自 50 个不同身份证件类型的 500 个视频剪辑,提供了地面真实性,方便进行广泛的文档分析问题的研究,同时给出了人脸检测 - CVPR一种端到端的文本识别器:显式对齐与注意力机制
该研究提出了一种简单有效的框架,可以同时处理文字检测和识别,其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训,该方法在两个数据集上实现了新的最先进检测性能和表现提高。
- E2E-MLT: 一种非约束的多语言场景文字端到端方法
提出了一种端到端可训练的(完全可区分的)多语言场景文本本地化和识别方法,该方法基于单个完全卷积网络(FCN),共享层用于两个任务。E2E-MLT 是首个发表的用于场景文本的多语言 OCR。虽然在多语言设置中进行了训练,但与仅训练英文场景文本 - 深度神经网络实现端到端车牌检测和识别
本研究提出了一种融合深度神经网络的方法,在单个前向传递中同时定位车牌并识别车牌上的字符。与现有方法不同的是,我们的方法可以避免中间误差的积累,并加快处理速度,并在三个数据集上进行实验,证明了我们的方法的有效性和效率。
- Sketch-pix2seq: 生成多种类别的草图模型
提出了一种改进型的模型,即 sketch-pix2seq 模型,用于学习和生成多类别素描,其中替换了 RNN 编码器为 CNN,从目标函数中删除了 KL 散度,实验表明其性能优于其他模型
- MM利用 RGB、HSV 和 YCbCr 色彩模型进行人类皮肤检测
本文提出了一种新的人类皮肤检测算法,该算法基于 RGB、HSV 和 YCbCr 颜色模型,通过考虑三个颜色参数的各自和联合范围来提高对给定图像中皮肤像素的识别精度。
- 人脸分割、人脸交换和人脸感知
本文介绍了一种基于全卷积网络的人脸分割方法以及利用该方法进行的高效准确的人脸替换技术,并使用 “Labeled Faces in the Wild” 数据集进行了测试,证明了该方法的有效性。
- 深度学习联合视觉降噪和分类
本研究提出了一种基于深度自编码器和多模态学习启发的、用于手写图像的视觉恢复和识别联合框架,采用三通道深度结构,通过非线性映射将视觉恢复和分类统一使用共享表示。在 MNIST 数据和 USPS 数据上测试,本框架在分类上的表现比分离流程至少提 - 深度联合人脸超分辨与识别
本研究使用深度卷积网络联合学习面部图像超分辨率重构和人脸识别任务,设计了一个端到端的深度卷积网络,其中重构子网络与识别子网络级联,后者使用散发器作为输入,优化两个损失项进行训练,并在 LFW 和 YTF 数据集上进行了广泛的评估。实验结果表 - 用于物体实例检测的多视角 RGB-D 数据集
介绍了一个新的多视角 RGB-D 数据集,用于目标检测和识别,包括多个识别基准和 AlexNet 模型,证明了该数据集比 Washington RGB-D Scenes 数据集更具挑战性。
- 镜像图:反射组合和有限 Coxeter 群的图论特征
本文旨在通过将镜面图表征为有限 Coxeter 群的 Cayley 图或者反射排列的 tope 图来解决镜面图的结构问题,并提出了一个多项式算法来识别这类图。
- 少即是多:使用顶部帧从视频中识别微表情
利用面部微表达视频的顶点帧和起始帧,结合新的 Bi-WOOF 特征提取方法,提出了一种新的面部微表情识别方法,在 CAS(ME)$^2$,CASME II,SMIC-HS,SMIC-NIR 和 SMIC-VIS 数据库上取得了 61% 和 - 基于局部区域特征和支持向量机的面部表情识别
本文提出了一种基于外貌和几何特征结合支持向量机分类的面部表情识别方法,其中包括从特定区域提取外观和几何特征,使用递增搜索法确定重要的局部区域以降低特征维度并提高识别精度,并通过比较全局和局部的特征组合识别面部表情。该方法在公开的 Cohn- - ICDAR 2015 鲁棒阅读竞赛挑战 4 中的非正式场景文本理解最近的进展
本研究报告介绍了我们针对 ICDAR 2015 Robust Reading Competition Challenge 4 中的场景文本探测和识别问题的策略,以及与该领域之前的研究成果进行比较的方法。
- 基于通用流形模型的表情片段学习及其在动态面部表情识别中的应用
本文提出了一种基于流形建模和表情单元的方法来解决动态表情识别中的时间对齐和动态表示问题,并通过磨合模型来统一所有空间 - 时间流形。该方法在四个公共表情数据库上进行评估,并在所有情况下均比已知的最先进技术表现出更好的性能。