从图书中构建图像与文本对数据集

ICCVOct, 2023

从图书中构建图像与文本对数据集

Constructing Image-Text Pair Dataset from Books

Yamato Okamoto, Haruto Toyonaga, Yoshihisa Ijiri, Hirokatsu Kataoka

TL;DR利用数字档案进行机器学习的新方法，通过光学字符阅读器（OCR）、物体检测器和布局分析器构建数据集，展示其在图像 - 文本检索和洞察力提取方面的有效性。

Abstract

digital archiving is becoming widespread owing to its effectiveness in protecting valuable books and providing knowledge to many people electronically. In this paper, we propose a novel approach to leverage digital archives for →

digital archiving machine learning dataset construction image-text pairs insight extraction

发现论文，激发创造

压缩与对齐：用人类知识筛选图像文本数据

该研究通过采用人工智能算法对图像文本数据进行高质量压缩，并利用训练出的奖励模型作为人类般的裁判来过滤不对齐 / 低质量的图像文本对。

Dec, 2023

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

利用网络视觉资源增强教科书以促进学习

本文研究了使用视觉 - 语言模型自动从网络中获取图片来增强教科书的有效性，将该任务作为一种新的优化问题。经过众包评估验证了该方法的可行性，并发布了相应的数据集以促进更多的研究。

Apr, 2023

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

面向能够阅读的 VQA 模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为 LoRRA 的新模型用于解决这个问题，同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。

Apr, 2019

DDI-100: 文本检测和识别数据集

本文提出了扭曲文档图像数据集（DDI-100），该数据集是基于 7000 张真实唯一的文档页面的合成数据集，包含超过 100000 个增强图像，标注信息包括文本和邮戳掩模、文本和字符边界框等，验证结果表明该数据集在文档分析等多种领域有很好的实用价值。

Dec, 2019

神经模仿实现的电影融合

本研究提出了一种基于跨模态数据检索，利用深度学习模型，将书籍的内容通过其对应电影视觉呈现出来，研究并比较了使用对话、视觉和混合模型匹配书和电影内容的有效性。

Aug, 2017

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

清洗脏数据：用于先前扫描文本的 OCR 后处理

本文探讨了语言模型的改进如何在不考虑扫描图像本身的情况下检测和纠正 OCR 错误，并给出了处理重复扫描图书的方法和单本文本的纠错方法以及扫描质量与其他因素的关系分析。

Oct, 2021