简化Duncode字符

Jul, 2023

Duncode Characters Shorter

Changshang Xue

TL;DR本文研究了各种编码器在文本转换中的应用，介绍了本地编码器和通用编码器，其中Duncode是一种创新的编码方法，旨在以高空间效率编码整个Unicode字符集，超越了UTF8.

Abstract

This paper investigates the employment of various encoders in text transformation, converting characters into bytes. It discusses local encoders<

发现论文，激发创造

FontCode: 利用字形扰动在文本文档中嵌入信息

FontCode 是一种信息嵌入技术，能通过微调字形来嵌入用户指定的信息，并提供了一种识别和错误纠正方法。它可用于文档元数据管理、光学二维码和文档签名等多种应用。

Jul, 2017

中、英、日、韓語文本分類中最佳編碼方式為何？

本文针对中日韩和英语言的文本分类，研究了不同编码方式，包括 UTF-8 字节、字符、词、罗马化字符和罗马化词，对线性模型、fastText 和卷积神经网络进行了比较，对卷积神经网络的编码机制进行了研究，使用了包括字符字形图像、one-hot 编码和嵌入在内的不同编码机制，总共使用了 473 个模型，并使用包括中英日韩四种语言的 14 个大型文本分类数据集。结果表明，基于 UTF-8 的字节级 one-hot 编码一致表现出色，词级 n-gram 的线性模型即使没有完美的词分割也能表现出色，而 fastText 提供了最佳结果，但当特征过于丰富时容易出现过拟合。

Aug, 2017

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

本文提出了两个端到端模型：Audio-to-Byte (A2B)和Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用Unicode字节序列来建模文本，并且通过使用字节代替大的softmax函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Nov, 2018

浅层激进解码实现即时语法错误纠正

本文提出Shallow Aggressive Decoding（SAD）以提高Transformer模型在瞬时语法错误纠正（GEC）任务中的在线推断效率，该方法通过两种创新的方式优化在GEC中的在线推断效率：1）积极地并行解码尽可能多的符号以提高计算并行性；2）采用浅解码器，而非传统的具有平衡编码器-解码器深度的Transformer结构以降低推断过程中的计算成本。实验结果表明，积极解码可以产生与贪婪解码相同的预测，但在线推理速度显着提高。与浅解码器相结合，可以在不降低质量的情况下进一步提高在线推理速度。该方法不仅可以使单一模型在英语GEC基准测试中取得最先进的结果，还可以轻松适应其他语言。

Jun, 2021

OCR 提升低资源语言机器翻译

研究低资源语言和脚本的OCR系统表现。引入OCR4MT基准测试，并使用真实和合成数据进行了丰富，以评估最先进的OCR系统，分析最常见的错误。表明OCR单语数据是一种有价值的资源，可以在回译中提高机器翻译模型的性能。通过消融研究来调查OCR误差如何影响机器翻译性能，并确定用于机器翻译有用的单语数据的最小OCR质量水平是多少。

Feb, 2022

修补Charformer中的漏洞，以实现高效的字符级生成

本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法，从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势，但训练速度可以提高 30%，在英––土耳其翻译中表现优异，表明字符级模型在形态丰富的语言中具有潜在的优势。

May, 2022

局部基于语法的编码：再认识

本篇论文阐述了基于语法的最小局部编码问题，提出了解决该问题的一种简单的Zipfian 基准证明方法，并发现最小块编码规则的数量不能明显区分长内存和无内存来源。

Sep, 2022

拆解标记化: 评估文本压缩及其与模型性能的相关性

通过变化训练数据的数量，我们研究了BPE tokenizers的压缩能力对预训练语言模型下游性能的影响，我们发现压缩能力与模型性能存在相关性，因此构建压缩效果更好的tokenizer是一个有前景的研究方向。

Mar, 2024

MYTE: 基于形态的字节编码以改进和公平多语言建模

通过使用一种基于词素的编码约定（MYTE），我们能够代表多种语言的相同信息，并改善多语言语言模型性能以及减少了不同语言之间的困惑度差异。

Mar, 2024

聚焦于整个字符：场景文本识别的辨别性字符建模

通过引入Character-Aware Constraint Encoder (CACE)和Intra-Inter Consistency Loss (I^2CL)的方法，本研究提出了一种新颖的方法来增强字符的可区分性，提升了场景文本识别模型的性能。

Jul, 2024