FontCode: 利用字形扰动在文本文档中嵌入信息

Jul, 2017

FontCode: 利用字形扰动在文本文档中嵌入信息

FontCode: Embedding Information in Text Documents using Glyph Perturbation

Chang Xiao, Cheng Zhang, Changxi Zheng

TL;DRFontCode 是一种信息嵌入技术，能通过微调字形来嵌入用户指定的信息，并提供了一种识别和错误纠正方法。它可用于文档元数据管理、光学二维码和文档签名等多种应用。

Abstract

We introduce fontcode, an information embedding technique for text documents. Provided a text document with specific fonts, our method embeds user-specified information in the text by perturbing the glyphs of tex

发现论文，激发创造

通过拼写学习阅读：迈向无监督文本识别

该论文提出了一种无需配对监督数据进行视觉文本识别的方法，通过从给定的文本图像中预测字符串的条件概率与从目标语料库中抽样的合法字符串进行对齐，从而实现完全自动化和无监督学习，并消除了大型对齐数据集的需求，同时在合成和真实印刷书籍的扫描图像上实现了出色的文本识别准确性。

Sep, 2018

通过视觉匹配实现自适应文本识别

该研究旨在解决文档中的文本识别的泛化和灵活性问题。该研究提出了一种新模型，通过利用语言中字符的重复性，将文本识别转化为形状匹配问题，从而实现了外观的泛化和分类的灵活性。该模型可以解决传统架构无法解决的挑战，并在不同字母表的合成和真实数据集上进行了评估，得到了显著的改进。

Sep, 2020

探索场景文本识别的与字体无关的特征

本文介绍了一种基于注意力生成字形和可训练字体嵌入的方法，用于解决字体风格差异和排版不规则性在场景文本识别中带来的挑战，并通过实验证明了该方法的优越性。

Sep, 2020

通过基于字形的解耦字符嵌入和语义子字符增强进行文本分类

我们提出了一个用于字符文本分类的新框架，并在日语文本分类任务中验证模型性能提高，并通过提出的字符嵌入实现了模型的可解释性。

Nov, 2020

通过后处理模型提高 OCR 性能：采用字形嵌入进行改进的校正

探讨后期OCR模型的潜力，以克服OCR模型的局限性，并研究将字形嵌入应用于后期OCR纠错性能的影响。研究通过使用CharBERT和独特的嵌入技术将OCR输出进行嵌入，捕捉字符的视觉特征。研究发现后期OCR纠错有效地解决了次优OCR模型的缺陷，并且字形嵌入使模型能够取得优异的结果，包括纠正单词的能力。

Aug, 2023

EfficientOCR: 高效数字化世界知识的可扩展开源软件包

EffOCR是一种开源OCR包，以字符或单词级图像检索问题的方式模拟OCR，具有成本低、样本高效、易于部署和定制等优点，并在历史文件和日文文档的数字化上取得了成功。

Oct, 2023

基于类别感知的文本场景识别的掩膜引导特征细化

提出了一种名为Class-Aware Mask-guided feature refinement（CAM）的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战，并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中，CAM展示出优于先进方法的优势，平均性能提高了4.1％，并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。

Feb, 2024

Glyph-ByT5: 准确视觉文本渲染的定制文本编码器

通过定制化文本编码器Glyph-ByT5与SDXL的融合，我们提出了一种用于设计图像生成的Glyph-SDXL模型，大幅提高了文本渲染的准确性，并在打破原有的设计图像基准上，将渲染准确度从不到20%提高到近90%，同时还能实现自动多行布局，并通过细调与视觉文本相关的高质量照片，显著提升了开放域真实图像中场景文本渲染能力，为设计各种困难任务的定制化文本编码器的进一步探索提供了有力的倡议。

Mar, 2024

在大型语言模型中隐藏文本：引入无条件强迫混淆

使用简单的微调技术，可以将隐藏的文本嵌入到大型语言模型中，而只有在触发特定查询时才会显现。这项工作表明通过微调将隐藏文本嵌入到语言模型中，虽然由于潜在触发器的巨大数量（任何字符或标记的序列都可以作为触发器）而看似安全，但仍然容易通过对语言模型输出解码过程的分析来提取其中的隐藏文本。

Jun, 2024

PostMark: 大型语言模型的稳健黑盒水印

我们开发了PostMark，这是一种模块化的事后水印程序，可以在解码过程完成后将一组依赖于输入的词语插入到文本中，而无需访问对数。与现有的水印方法相比，PostMark对释词攻击更加鲁棒，并通过自动和人工评估来评估其对文本质量的影响，突出了质量和抗释词性之间的权衡。

Jun, 2024