黑暗中的文本：极低光照文本图像增强

Apr, 2024

黑暗中的文本：极低光照文本图像增强

Text in the Dark: Extremely Low-Light Text Image Enhancement

Che-Tsung Lin, Chun Chet Ng, Zhi Qin Tan, Wan Jun Nah, Xinyu Wang...

TL;DR提出了一种新的编码器 - 解码器框架，使用边缘感知的注意力模块来增强极低光条件下的文本图像，通过使用文本检测和边缘重建损失强调低层次的文本特征，实现了成功的文本提取和极低光图像增强。

Abstract

extremely low-light text images are common in natural scenes, making scene text detection and recognition challenging. One solution is to enhance these images using low-light →

extremely low-light text text detection image enhancement edge-aware attention module supervised deep curve estimation

发现论文，激发创造

黑暗中的文字识别：算法与基准评估

在低光环境下本文提出了一种用于定位文本的高效有效的单阶段方法，该方法通过在训练阶段引入约束学习模块，提供文本在低光视觉退化情况下的空间特征保留和定位能力，以获得准确的文本特征描述并在低光数据集上取得了最先进的成果。

Apr, 2024

带有大规模低光模拟数据集的注意力引导低光图像增强

本文提出了一种基于多分支卷积神经网络的新型端到端注意力引导方法，利用合成的低光模拟数据构建数据集，通过使用两个注意力图指导亮度增强和降噪任务，并进一步增强输出图像的色彩和对比度以实现对低光图像的高保真增强，该方法在多个数据集上表现优异，比当前最先进的方法有更好的定量和视觉效果。

Aug, 2019

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

SEED: 场景文本识别的加强语义编码器 - 解码器框架

本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本，它使用显式的全局语义信息，并将现有的 ASTER 方法作为示例，实验证明了该模型对低质量文本图像更加鲁棒，并在多个基准数据集上取得了最先进的结果。

May, 2020

交互式注意力 AI：将低光照片翻译为夜晚场景理解的字幕，用于妇女安全

本文介绍了一种基于深度学习的图像字幕生成模型，该模型能够将夜晚场景转化为文字描述，为视障女性的安全开辟了新的 AI 应用空间，同时基于注意力机制的交互式图像字幕生成模型也被提出，能够通过用户提供的关注点，使 AI 关注任意人物并为其生成描述，该方法可以用于低照度环境下的图像字幕生成及为提高夜晚中的女性安全作出贡献。

Jan, 2022

低光图像和视频增强技术的深度学习调研

本文提出了一个包含低光图像增强算法分类、数据集、web 平台等多个方面的综述以及一个包含各种拍摄设备下的低光图像数据、在线评估多个流行算法的数据集和平台，并对各种算法在公开及自有数据集上进行了定性和定量评估。本平台，数据集以及评估指标都是公开的并被定期更新。

Apr, 2021

LEDNet: 低光弱化与去模糊联合处理

该研究通过引入新的数据合成流程来模拟真实的低照度模糊退化，提出了联合低照度增强和去模糊的大规模数据集 LOL-Blur，同时提出了一种名为 LEDNet 的有效网络，解决了夜间摄影低照度和模糊问题。

Feb, 2022

利用合成标题改进图像文本生成

通过使用 SDXL，我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性，并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。

Jun, 2024

低光图像鲜明物体检测中的图像增强探索

本文提出了一种基于物理光照模型的图像增强方法，以便在低光照图像中便于显着物体检测，并使用 Non-Local-Block 层来捕捉物体与其邻域的差异，最终在 4 个公共数据集和自己构建的数据集中取得了有前景的结果。

Jul, 2020

启迪你的声音：当多模态遇上零样本低光照图像增强

我们研究了一种名为 “Enlighten-Your-Voice” 的多模态增强框架，通过声音和文本命令创新地丰富用户交互，以解决低光场景中可见信息退化对互补信息融合和结果生成的不利影响，并呈现了在无监督零样本情境中引人注目的泛化能力。

Dec, 2023