FontCode: 利用字形扰动在文本文档中嵌入信息
该论文提出了一种无需配对监督数据进行视觉文本识别的方法,通过从给定的文本图像中预测字符串的条件概率与从目标语料库中抽样的合法字符串进行对齐,从而实现完全自动化和无监督学习,并消除了大型对齐数据集的需求,同时在合成和真实印刷书籍的扫描图像上实现了出色的文本识别准确性。
Sep, 2018
该研究旨在解决文档中的文本识别的泛化和灵活性问题。该研究提出了一种新模型,通过利用语言中字符的重复性,将文本识别转化为形状匹配问题,从而实现了外观的泛化和分类的灵活性。该模型可以解决传统架构无法解决的挑战,并在不同字母表的合成和真实数据集上进行了评估,得到了显著的改进。
Sep, 2020
本文介绍了一种基于注意力生成字形和可训练字体嵌入的方法,用于解决字体风格差异和排版不规则性在场景文本识别中带来的挑战,并通过实验证明了该方法的优越性。
Sep, 2020
探讨后期OCR模型的潜力,以克服OCR模型的局限性,并研究将字形嵌入应用于后期OCR纠错性能的影响。研究通过使用CharBERT和独特的嵌入技术将OCR输出进行嵌入,捕捉字符的视觉特征。研究发现后期OCR纠错有效地解决了次优OCR模型的缺陷,并且字形嵌入使模型能够取得优异的结果,包括纠正单词的能力。
Aug, 2023
EffOCR是一种开源OCR包,以字符或单词级图像检索问题的方式模拟OCR,具有成本低、样本高效、易于部署和定制等优点,并在历史文件和日文文档的数字化上取得了成功。
Oct, 2023
提出了一种名为Class-Aware Mask-guided feature refinement(CAM)的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战,并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中,CAM展示出优于先进方法的优势,平均性能提高了4.1%,并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。
Feb, 2024
通过定制化文本编码器Glyph-ByT5与SDXL的融合,我们提出了一种用于设计图像生成的Glyph-SDXL模型,大幅提高了文本渲染的准确性,并在打破原有的设计图像基准上,将渲染准确度从不到20%提高到近90%,同时还能实现自动多行布局,并通过细调与视觉文本相关的高质量照片,显著提升了开放域真实图像中场景文本渲染能力,为设计各种困难任务的定制化文本编码器的进一步探索提供了有力的倡议。
Mar, 2024
使用简单的微调技术,可以将隐藏的文本嵌入到大型语言模型中,而只有在触发特定查询时才会显现。这项工作表明通过微调将隐藏文本嵌入到语言模型中,虽然由于潜在触发器的巨大数量(任何字符或标记的序列都可以作为触发器)而看似安全,但仍然容易通过对语言模型输出解码过程的分析来提取其中的隐藏文本。
Jun, 2024
我们开发了PostMark,这是一种模块化的事后水印程序,可以在解码过程完成后将一组依赖于输入的词语插入到文本中,而无需访问对数。与现有的水印方法相比,PostMark对释词攻击更加鲁棒,并通过自动和人工评估来评估其对文本质量的影响,突出了质量和抗释词性之间的权衡。
Jun, 2024