手写文档图像匹配

May, 2016

Matching Handwritten Document Images

Praveen Krishnan, C.V. Jawahar

TL;DR该研究使用卷积神经网络提取特征描述进行文本匹配，以解决不同个体写作的手写文本相似性预测问题。

Abstract

We address the problem of predicting similarity between a pair of handwritten document images written by different individuals. This has applications related to matching and mining in image collections containing handwritten content. A similarity score is computed by detecting patterns

handwritten document similarity prediction word distribution convolutional neural network matching

发现论文，激发创造

文本匹配作为图像识别

本研究提出了一种将文本匹配建模为图像识别问题的方法，即通过构造匹配矩阵并利用卷积神经网络捕捉匹配模式，以此提高匹配准确度，并通过实验证明了该方法的优越性。

Feb, 2016

卷积识别模型特征与文本标签相结合的离线检测错误拼写的手写词

通过引入与文本进行比较的任务，我们提出了一个无限制的二元分类器，其中包括一个手写识别特征提取器和一个多模态分类头，该分类头将特征提取器的输出与输入文本的向量表示进行卷积。我们的模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明，与直接使用最先进的手写识别模型来解决任务相比，尽管保持高回收率，但分类器可以进行校准，使平均精确度提高了 19.5%。这种巨大的性能提升可以在利用人 - 环自动化的应用中带来显著的生产力增长。

Sep, 2023

数字图像取证相似度

介绍一种新的数字图像取证方法，称为 “取证相似性”，可以确定两个图像图块是否包含相同的取证痕迹或不同的取证痕迹。该方法使用基于卷积神经网络的特征提取器和三层神经网络组成的系统来计算图像汇总所包含的同一或不同取证痕迹的相似性得分，实验证明其可应用于各种取证痕迹，不需要事先了解特定痕迹的知识。该系统在检测相机型号、图像编辑和操作参数方面，表现出优异的性能和应用前景。

Feb, 2019

手写文件的非破坏性检验的新数据集

司法笔迹鉴定是法医科学的一个分支，旨在通过全面比较内在的局部和全局特征，检验手写文件以准确定义或假设手稿的作者。该研究提出了一个新的数据集，包括传统手写文件和数字工具（如平板电脑）生成的文件之间的比较，并展示了数据的初步结果，显示第一子集可以达到 90％的分类准确率，第二子集可以达到 96％。

Jan, 2024

基于单个手写单词图像的深度自适应写手识别学习

该论文提出了一种基于多任务深度自适应学习的方法，利用深度卷积神经网络从显式内容识别的辅助任务中学习通用的特征，从而提高单词图像的写作者识别性能。

Sep, 2018

基于注意力机制的离线书写者识别端到端网络 (基于字级数据)

本文提出了一种基于注意力驱动的卷积神经网络的作者识别系统，该系统利用从词图像中提取的图像片段进行训练，采用金字塔策略。该系统能够全面捕捉数据的细节和粗糙特征，以及不同抽象层次上的信息。此外，文中探讨了使用注意力机制来增强学习特征的表征能力。该算法在三个基准数据库上进行了评估，证明了其在作者识别任务中的有效性，尤其是在有限手写数据的情景中。

Apr, 2024

使用完全卷积网络识别具有挑战性的手写注释

本文介绍一个历史德语文件的数据集，并使用全卷积神经网络（FCNN）方法来定位这些文件中的手写注释，研究训练和评估了各种各样的端到端语义分割方法，并报告了结果，最佳模型可以在测试文档中获得 95.6％的平均交集联合得分（IoU）。

Apr, 2018

多模态卷积神经网络：图像和文本匹配

本论文提出了多模态卷积神经网络 (m-CNNs)，用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明，我们的 m-CNNs 可以有效地捕捉图像和句子匹配所需的信息，并在 Flickr30K 和 Microsoft COCO 数据库的双向图像和句子检索上取得了最先进的性能。

Apr, 2015

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019