DSText V2：针对密集细小文字的综合视频文字识别数据集

Nov, 2023

DSText V2：针对密集细小文字的综合视频文字识别数据集

DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and Small Text

Weijia Wu, Yiming Zhang, Yefei He, Luoming Zhang, Zhenyu Lou...

TL;DR该研究提出了一个名为 DSText V2 的视频文本阅读基准，着重解决了视频中密集、小字体的阅读难题，并且包含了新的场景和任务，如视频文本检测、跟踪以及端到端视频文本定位。该文章还对数据集进行了详细的统计分析，并提供了洞察和分析针对该数据集中的三个独特挑战，旨在为研究人员带来新的见解。

Abstract

Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. Ho

video text detection tracking recognition dstext v2 challenges

发现论文，激发创造

密集文本与小文本视频文本阅读比赛 (ICDAR 2023)

本文描述了一项视频文本阅读基准（DSText），该基准专注于视频中具有挑战性的密集和小文本的阅读挑战，包括文本检测、跟踪和识别。

Apr, 2023

You Only Recognize Once: 面向快速视频文本定位

本文提出了一种快速且强健的视频文本识别框架，通过一次性识别局部文本，避免了针对每一帧的文本识别，使用文本推荐器从文本流中选择高质量文本并仅对其进行识别，大大加快了视频文本识别的速度，在公共基准测试中实现了显著的最先进效果，并推出了一个促进视频文本识别社区发展的数据集（LSVTD）.

Mar, 2019

一种端到端的视频文本检测器，具备在线跟踪功能

本文介绍一种基于 ConvLSTM 和在线跟踪的视频文本检测方法，将检测和跟踪的两个任务结合起来，提高了检测精度，降低了计算成本，并且实验表明该方法在 ICDAR2013 Video、Minetto 和 YVT 等数据集上均有极大的优势。

Aug, 2019

CelebV-Text：一個大規模的人臉文字視頻數據集

本文介绍了 CelebV-Text 数据集，这是一个大规模、多样化且高质量的面部文本 - 视频对数据集，旨在促进面部文本到视频生成任务的研究，通过综合统计分析视频、文本和文本视频相关性，证明了 CelebV-Text 数据集的优越性和潜力，并通过广泛的自我评估显示了 CelebV-Text 的有效性和潜力。

Mar, 2023

可扩展视频文本定位的遮罩标注

提出了一种基于可扩展的 SAMText 模型的可扩展的遮罩注释流程，用于视频文本定位，以解决现有数据集所具有的问题，并使用 SAMText 创建了一个包含 2400 个视频剪辑和超过 900 万个遮罩注释的大规模数据集，为该领域提供了新的研究机会。

May, 2023

COCO-Text: 自然图像文本检测和识别数据集与基准

本文介绍了 COCO-Text 数据集，该数据集基于 MS COCO 数据集，旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像，文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析，并对三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

Jan, 2016

VimTS：用于增强跨领域泛化能力的统一视频和图像文本识别器

通过集成多任务模型、合成视频文本数据集和学习时序信息，VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能，并且相较于现有的大型多模态模型，所需参数和数据更为少。

Apr, 2024

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

Total-Text: 一份全面的用于场景文本检测和识别的数据集

该研究论文主要介绍了一个新的数据集 Total-Text，该数据集包括水平、多向和曲线方向的文本，旨在填补现有文本数据集对于曲线文字方向的空缺，并对该数据集进行了基于 DeconvNet 的曲线文字检测方法的评估。

Oct, 2017