从图书中构建图像与文本对数据集
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。
Apr, 2023
本文研究了使用视觉 - 语言模型自动从网络中获取图片来增强教科书的有效性,将该任务作为一种新的优化问题。经过众包评估验证了该方法的可行性,并发布了相应的数据集以促进更多的研究。
Apr, 2023
增强视觉模型对包含大量文本信息的图像进行理解和学习的能力,通过数据预处理、微调和模型评估等方法,在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度,旨在提升复杂视觉文本数据的跨模态人工智能理解能力。
May, 2024
我们研究了盲人用户在看不到图片的情况下经常关注的图像内容,即图片中的文本,并介绍了一种名为 LoRRA 的新模型用于解决这个问题,同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。
Apr, 2019
本文提出了扭曲文档图像数据集(DDI-100),该数据集是基于 7000 张真实唯一的文档页面的合成数据集,包含超过 100000 个增强图像,标注信息包括文本和邮戳掩模、文本和字符边界框等,验证结果表明该数据集在文档分析等多种领域有很好的实用价值。
Dec, 2019
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023
本文探讨了语言模型的改进如何在不考虑扫描图像本身的情况下检测和纠正 OCR 错误,并给出了处理重复扫描图书的方法和单本文本的纠错方法以及扫描质量与其他因素的关系分析。
Oct, 2021