基于注意力的街景图像结构信息提取

Apr, 2017

基于注意力的街景图像结构信息提取

Attention-based Extraction of Structured Information from Street View Imagery

Zbigniew Wojna, Alex Gorban, Dar-Shyang Lee, Kevin Murphy, Qian Yu...

TL;DR本研究利用卷积神经网络（CNNs）、循环神经网络（RNNs）和新型的注意力机制设计了一个神经网络模型，可在处理困难法国街头路名标志（FSNS）数据集时，以 84.2％的准确率远超过之前的最优结果（Smith'16）的 72.46％。同时，该模型更为简单通用，并可应用到从谷歌街景视图（Google Street View）得出的商店门面提取业务名称的更加困难的数据集上，并对采用 CNN 特征提取器的深度在速度 / 准确度之间寻求折衷结果表明，深度不一定总是更好的选择。最终，构建出来的模型既简单又快速准确，有望应用在各种具有挑战性的实际文本提取问题上。

Abstract

We present a neural network model - based on cnns, rnns and a novel attention mechanism - which achieves 84.2% accuracy on the challenging

neural network cnns rnns attention mechanism text extraction

发现论文，激发创造

法国街道名称标志数据集的端到端解释

介绍了包含超过一百万法国街道名称标牌图像的 French Street Name Signs (FSNS) 数据集，每张图片都包含多个视角的同一街道名称标牌，提供了规范化、标题式合并的文本。文章探讨如何通过训练深度神经网络实现端到端的街道名称提取问题解决方案，并介绍了用 TensorFlow 实现的网络 / 图。

Feb, 2017

使用深度卷积神经网络从街景图像识别多位数

本文提出了一种集成了多个步骤的深度卷积神经网络，直接在图像像素上解决了识别街景图像中任意多位数字的难题，并在公开数据集 SVHN 上达到超过 96% 的识别率，在识别每个数字的任务上超过了当前最先进的技术，在 reCAPTCHA 上的识别准确率为 99.8%，表明该系统在特定操作阈值下可以与甚至超过人类操作员的性能。

Dec, 2013

使用卷积神经网络进行大规模建筑物提取：美国地图绘制

通过采用分支卷积神经网络、全卷积神经网络、条件随机场作为循环神经网络以及 SegNet 四种卷积神经网络体系结构，对美国整个大陆分类提取建筑物轮廓线，将符号距离标签与 SegNet 结合，改进了建筑物轮廓线的提取结果并提出了融合近红外信息的建筑物整体提取框架，同时比较了精度、召回率、并集交集以及提取建筑物的数量等指标。

May, 2018

基于局部视觉变换器的交通标志识别

通过结合卷积网络和 Transformer 网络的优势，本研究提出了一种新型的模型用于交通标志识别，实验证明该模型在德国和波斯交通标志数据集上超过了纯 Transformer 模型和最佳卷积网络的准确率，并且在保持快速推理速度的同时，更适合实际应用。

Nov, 2023

基于自然语言处理的方法：通过理解街景图像中的深层语义特征进行人类感知的映射

利用预训练自然语言模型的新框架，结合街景图像和机器学习，深入理解人类感知和场景感受之间的关系，并发现利用深层语义特征对于人类感知研究的重要性和解释力的提升。

Nov, 2023

基于卷积神经网络的 GTRSB 交通标志检测和分类优化

在交通运输不断演进的背景下，汽车的普及使道路交通更加复杂，需要先进的视觉辅助技术来提高安全性和导航能力。本文提出了一种基于卷积神经网络的创新方法，实现了接近 96% 的准确率，突出了通过高级定位技术可以实现更高的精度，这不仅对交通标志识别技术的持续发展有所贡献，也强调了这些发展对道路安全和自动驾驶的未来的关键性影响。

Mar, 2024

深度跨领域建筑物提取，用于倾斜航空图像的选择性深度估计

使用卷积神经网络进行实时建筑物提取，提出了一种允许从倾斜航空影像中进行多视图深度估计的算法，结合 Faster R-CNN，可以从高空俯瞰图像中选择性地重建建筑物。

Apr, 2018

城市街景的实时高性能语义图像分割

本文提出了一种用于城市街景的语义分割的高性能深卷积神经网络方法，它实现了精度和速度之间的良好权衡，并展示了在实时速度下使用单个 NVIDIA TITAN X 卡片在具有挑战性的 Cityscapes 和 CamVid 测试数据集上分别实现了 73.6％和 68.0％的 mIoU 精度。

Mar, 2020

基于卷积神经网络的地点识别

本文介绍了一种基于 CNN 模型的场所识别技术，在空间和时间维度上使用组合得到 CNN 模型的强大特征，并应用于一些基准数据集进行评估，该技术在召回率上取得了 75％的提升和 100％精度，明显优于之前所有的最新技术。在本文中，还对所有 21 个层的特征进行了全面的性能比较，包括基准数据集和一个具有更大视角变化的第二个数据集。

Nov, 2014

交通标志识别的二值化神经网络架构设计

研究比较卷积神经网络和二值神经网络在识别交通标志上的表现，提出了一种从底层进行二值神经网络架构设计的方法，并且在测试集上取得了高于 80% 的准确率。

Mar, 2023