多角度 LSTM 联合视觉表示学习

CVPRMay, 2021

Multi-Perspective LSTM for Joint Visual Representation Learning

Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali Etemad

TL;DR我们提出了一种新颖的 LSTM 单元结构，能够学习从多个角度捕获的视觉序列中存在的内部和跨视角关系。我们证明，使用所提出的单元来创建神经网络，可以学习有效和更丰富的视觉表示，适用于口型识别和人脸识别等多角度视觉识别任务。我们在三个相关数据集上验证了我们提出的架构的性能，并将结果与融合策略，其他现有的多输入 LSTM 架构和替代识别方案进行了比较。实验表明，我们的解决方案在识别准确性和复杂性方面优于其他方案。

Abstract

We present a novel lstm cell architecture capable of learning both intra- and inter-perspective relationships available in visual sequences captured from multiple perspectives. Our architecture adopts a novel recurrent joint learning strategy that uses additional gates and memories at

lstm cell architecture multi-perspective relationships visual representations lip reading face recognition

发现论文，激发创造

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017

基于循环发现注意力区域的多标签图像识别

本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法，从卷积特征图中定位注意区域，并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。

Nov, 2017

基于视觉注意力的无序 RNN 多标签分类

本文提出了用于多标签分类的联合学习注意力和循环神经网络模型，可有效利用注意力和 LSTM 模型，并且扩展了 beam 搜索技术以提高效率。

Jul, 2017

使用全息双 LSTM 结构学习排名问题回答对

本研究提出了一种名为 HD-LSTM 的深度学习架构，该架构通过引入全息复合方法扩展了长短时记忆（LSTM）神经网络，来处理问题和答案之间的语义关系，并通过无需人工提取特征的端到端训练方式来优化参数。实验结果表明，HD-LSTM 在两个常用的问答数据集上表现出色，证实了全息复合方法优于神经张量层的有效性。

Jul, 2017

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

联合建模嵌入和翻译以桥接视频和语言

本文提出了一种名为 LSTM-E 的新型统一框架，它可以同时探索 LSTM 和视觉 - 语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测 SVO 三元组也超过了几种最先进的技术。

May, 2015

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

MS-LSTM: 探索视频预测领域的时空多尺度表示

本文介绍了一种新的视频预测模型 ——MS-LSTM，该模型采用多尺度空间和时间结构，在充分捕捉时空上下文信息方面具有高效和优秀的性能。与现有的 RNN 模型不同的是，MS-LSTM 使用 LSTMs 和不同的卷积内核设计空间和时间尺度，实现多尺度表示，有效减少了训练成本，同时取得更好的表现。

Apr, 2023

一种用于人物再识别的孪生长短时记忆体架构

本文提出了一种新颖的孪生 LSTM 结构，可以顺序地处理图像区域，并通过利用上下文信息增强局部特征表示的区分能力，有效地解决了多个摄像头视图下的行人匹配问题，取得了与最先进方法相媲美的良好效果，为视觉监控领域的研究提供了新思路。

Jul, 2016

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017