MIDV-2019：现代基于手机的文档 OCR 的挑战

Oct, 2019

MIDV-2019：现代基于手机的文档 OCR 的挑战

MIDV-2019: Challenges of the modern mobile-based document OCR

Konstantin Bulatov, Daniil Matalov, Vladimir V. Arlazarov

TL;DR本文介绍了一个包含在不同条件下使用现代高分辨率移动相机拍摄的影片的 MIDV-2019 数据集，其中包含解决诸如识别身份证件、文本字段识别等问题的方法和算法的方法组合。

Abstract

Recognition of identity documents using mobile devices has become a topic of a wide range of computer vision research. The portfolio of me

mobile devices computer vision dataset identity documents text field recognition

发现论文，激发创造

MIDV-500: 移动设备上身份证件分析和识别的视频流数据集

本文介绍了一个 Mobile Identity Document Video 数据集 (MIDV-500)，其中包含来自 50 个不同身份证件类型的 500 个视频剪辑，提供了地面真实性，方便进行广泛的文档分析问题的研究，同时给出了人脸检测、文字行识别和文档域数据抽取的评估结果。

Jul, 2018

身份证件全息图验证的弱监督训练

提出一种方法，通过在普通光照条件下处理智能手机捕捉的视频片段，远程验证身份文件中的光变设备（常称为 “全息图”），并在两个公共数据集上进行评估。该方法采用弱监督训练，优化特征提取和决策流程，实现了对 MIDV-HOLO 的新领先性能，并在作为攻击样本使用的 MIDV-2020 文档上保持了高召回率。这也是首个有效解决照片替换攻击任务的方法，可以根据需要训练真实样本、攻击样本或二者兼而有之，以提高性能。通过能够在很少的监督下验证 OVD 的形状和动态，这项工作为在普通智能手机上构建具有鲁棒性的远程身份文件验证系统提供了新途径。

Apr, 2024

DDI-100: 文本检测和识别数据集

本文提出了扭曲文档图像数据集（DDI-100），该数据集是基于 7000 张真实唯一的文档页面的合成数据集，包含超过 100000 个增强图像，标注信息包括文本和邮戳掩模、文本和字符边界框等，验证结果表明该数据集在文档分析等多种领域有很好的实用价值。

Dec, 2019

iQIYI-VID: 一个大规模的多模态人物识别数据集

本文引入了 iQIYI-VID 数据集，它是用于多模式人物识别的最大视频数据集，由 600K 个 5,000 名名人的视频剪辑组成，这些视频来自于各种类型的在线视频。通过实验结果表明，多模态注意模块融合的多模态特征可以显著提高人物识别的准确性。

Nov, 2018

使用多模态特征进行设备端文档分类

本文介绍了一种将光学字符识别（OCR）与模型架构集成的新型分类文档的方法，用于在设备上进行分类，防止私人用户数据传输到服务器，并展示在 FOOD-101 多模态数据集上，将模型压缩 30％后展示了竞争性的结果。

Jan, 2021

OpenVid-1M：一个用于文本到视频生成的大规模高质量数据集

T2V 生成在最近受到了很大的关注，然而仍面临两个重要的挑战：缺乏精确的开源高质量数据集，以及未充分利用文本信息。为了解决这些问题，我们介绍了 OpenVid-1M，一个精确的高质量数据集，以及一种能够从视觉标记和文本标记中提取结构信息和语义信息的新型多模态视频扩散变换器（MVDiT）的提议。广泛的实验和消融研究验证了 OpenVid-1M 优于以前数据集的优越性和我们的 MVDiT 的有效性。

Jul, 2024

LDRNet: 移动设备上实时文档定位技术

本文提出了基于边缘智能辅助的方法，设计了一个实时身份证验证（IDV）系统，LDRNet，用于在移动设备上本地化身份文件，增强 IDV 过程的响应性和准确率。

Jun, 2022

越过泥泞：离路赛车中的计算机视觉数据集和基准

在非受限和极端环境下的图像识别中，光学字符识别 (OCR) 和计算机视觉系统取得了显著的进展，但仍存在识别文本和识别人物的难题。为了解决这些问题，本研究引入了两个新的挑战性真实世界数据集，通过简化、模糊和运动模糊等多种因素来突出当前方法的不足，并推动 OCR 和人物再识别在极端条件下的发展。我们使用最先进的模型在这两个数据集上建立了基准性能，结果显示目前的通用模型表现不佳，仅在文本识别上达到 15% 的 F1 得分和人物重新识别的 33% 的排名准确率。经过微调后，模型性能得到了较大的提升，文本识别的 F1 得分达到了 53%，人物重新识别的排名准确率达到了 79%。然而，仍然需要面向特定领域的技术来解决现实世界 OCR 和人物重新识别中的开放问题。通过这些数据集和对模型限制的分析，我们旨在促进处理泥土和复杂姿势等现实世界条件的创新，推动鲁棒计算机视觉的进展。所有数据来源于 PerformancePhoto.co，这是一个专业汽车运动摄影师、车手和粉丝使用的网站。最佳文本识别和人物重新识别模型已在该平台上部署，用于实时赛车照片搜索。

Feb, 2024

FaceForensics：一种用于在人脸中检测伪造的大规模视频数据集

通过引入新的半百万级别的面部操作数据集，本文提出了对诸如经典图像取证分类、分割、以及众多优化方法进行基准测试、鉴定的处理任务，包括压缩不同质量级别下的视频，并达到超越现有所有视频操纵数据集一个数量级的状态，旨在通过根据目标制作难以区分的赝品来进行基准评估。

Mar, 2018

身份证和旅行文件的合成数据集

本研究提出了一个新的合成身份证和旅行证件数据集（SIDTD），该数据集旨在帮助培训和评估伪造身份证件检测系统。通过在该数据集上训练先进模型并与较大但私有的数据集进行比较，有助于推动身份证件验证任务在图像分析领域取得进展。

Jan, 2024