使用循环神经网络对相簿中人物进行顺序识别

Nov, 2016

使用循环神经网络对相簿中人物进行顺序识别

Sequential Person Recognition in Photo Albums with a Recurrent Network

Yao Li, Guosheng Lin, Bohan Zhuang, Lingqiao Liu, Chunhua Shen...

TL;DR该研究提出使用一种新的循环神经网络架构来建模人物间的关系信息，并将场景上下文与视觉外观一起建模，该方法将序列预测和语境线索结合，达到了最佳的性能表现。

Abstract

Recognizing the identities of people in everyday photos is still a very challenging problem for machine vision, due to non-frontal faces, changes in clothing, location, lighting and similar. Recent studies have shown that rich →

machine vision relational information sequence prediction recurrent network architecture contextual cues

发现论文，激发创造

超越正脸：利用多种线索改善人物识别

本文介绍了 PPIPA 数据集，提出了一种基于深度卷积网络的 Pose Invariant PErson Recognition (PIPER) 方法来实现照片集中个体识别，实验证明该方法在处理姿态、服装、视角、分辨率和光照等变化时表现优于 DeepFace。

Jan, 2015

个人照片集中的人物识别

该论文提出了一种基于多图像区域（头部、身体等）的简单的人员识别框架，以应对社交媒体照片中的人员识别问题，并针对训练和测试样本之间的时间和外观差距提出了新的识别方法，该方法在 PIPA 基准上取得了最先进的结果，对不同的特征进行了深入的分析。

Oct, 2017

个人相片集中的人物识别

提出一种基于卷积神经网络的人物识别系统，针对不同的身体线索和训练数据量的信息量，系统的常见故障模式进行了深入分析，并讨论了现有基准的局限性并提出更具挑战性的基准，其简单易用且在社交媒体照片数据集（PIPA）上达到了更好的成果。

Sep, 2015

统一身份认证和环境学习以进行人员识别

本文提出了一种新的人物识别框架：区域注意力网络，它能够以实例相关的方式自适应地组合不同的视觉线索，并学习社交上下文和人物身份的推理，从而在复杂的环境中大幅提高了鲁棒性。

Jun, 2018

基于深度循环卷积网络的视频行人再识别：一种端到端的方法

本文提出一种端到端的方法来同时学习视频人物再识别的时空特征和相应的相似度度量，采用深度卷积网络和循环神经网络进行时间序列建模和度量学习，通过时间汇聚产生整体特征表示，在 iLIDS-VID 和 PRID 2011 等公共数据集上达到最先进的性能水平。

Jun, 2016

视觉社交关系识别

本文提出了一种 Dual-Glance 模型，通过对人物关注视线的两个不同方面分别提取特征，结合注意力机制分析上下文线索，从而识别图片中的社交关系，并通过 Adaptive Focal Loss 方法处理模糊注释以提高识别效果，实验表明此方法在社交关系识别中取得了最新的最优效果。

Dec, 2018

人物检索的上下文图学习

本文提出了一种结合上下文信息进行人物搜索的框架，并通过相对注意力机制筛选场景中有用的上下文信息和建立图形学习框架来实现目标相似性的有效更新，该框架在两个广泛使用的人物搜索数据集上取得了最先进的性能。

Apr, 2019

用于情境识别的循环模型

本文提出使用递归神经网络模型来预测结构化的 “图像情境”，进一步研究了行为和名词实体在动作相关的语义角色中的作用，并且创新性地使用了专门的动作预测网络，以及一个 RNN 来进行名词预测。相比于之前使用条件随机场的工作，我们的系统在最近的 imSitu 数据集上获得了最佳的准确性表现，并且将从情景预测中学习到的特征转移到图像字幕生成任务中，以便更准确地描述人 - 物互动。

Mar, 2017

有序或无序：基于视频的人员再识别的重新审视

本文探究了对于基于视频的行人再识别（VPRe-id）任务在学习良好的视觉表示是否真的需要采用循环网络（RNNs），然后提出了一种基于集成学习的方法，可有效地解决该问题并实现了最先进的性能水平。

Dec, 2019

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015