简化Duncode字符
FontCode 是一种信息嵌入技术,能通过微调字形来嵌入用户指定的信息,并提供了一种识别和错误纠正方法。它可用于文档元数据管理、光学二维码和文档签名等多种应用。
Jul, 2017
本文针对中日韩和英语言的文本分类,研究了不同编码方式,包括 UTF-8 字节、字符、词、罗马化字符和罗马化词,对线性模型、fastText 和卷积神经网络进行了比较,对卷积神经网络的编码机制进行了研究,使用了包括字符字形图像、one-hot 编码和嵌入在内的不同编码机制,总共使用了 473 个模型,并使用包括中英日韩四种语言的 14 个大型文本分类数据集。结果表明,基于 UTF-8 的字节级 one-hot 编码一致表现出色,词级 n-gram 的线性模型即使没有完美的词分割也能表现出色,而 fastText 提供了最佳结果,但当特征过于丰富时容易出现过拟合。
Aug, 2017
本文提出了两个端到端模型:Audio-to-Byte (A2B)和Byte-to-Audio (B2A),用于多语言语音识别和合成。模型的关键是使用Unicode字节序列来建模文本,并且通过使用字节代替大的softmax函数,不同语言之间可以共享表示。同时通过引入字节表示,作者在单语言和多语言模型的表现中都获得了很好的结果。
Nov, 2018
本文提出Shallow Aggressive Decoding(SAD)以提高Transformer模型在瞬时语法错误纠正(GEC)任务中的在线推断效率,该方法通过两种创新的方式优化在GEC中的在线推断效率:1)积极地并行解码尽可能多的符号以提高计算并行性;2)采用浅解码器,而非传统的具有平衡编码器-解码器深度的Transformer结构以降低推断过程中的计算成本。实验结果表明,积极解码可以产生与贪婪解码相同的预测,但在线推理速度显着提高。与浅解码器相结合,可以在不降低质量的情况下进一步提高在线推理速度。该方法不仅可以使单一模型在英语GEC基准测试中取得最先进的结果,还可以轻松适应其他语言。
Jun, 2021
研究低资源语言和脚本的OCR系统表现。引入OCR4MT基准测试,并使用真实和合成数据进行了丰富,以评估最先进的OCR系统,分析最常见的错误。表明OCR单语数据是一种有价值的资源,可以在回译中提高机器翻译模型的性能。通过消融研究来调查OCR误差如何影响机器翻译性能,并确定用于机器翻译有用的单语数据的最小OCR质量水平是多少。
Feb, 2022
本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法,从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势,但训练速度可以提高 30%,在英––土耳其翻译中表现优异,表明字符级模型在形态丰富的语言中具有潜在的优势。
May, 2022
本篇论文阐述了基于语法的最小局部编码问题,提出了解决该问题的一种简单的Zipfian 基准证明方法,并发现最小块编码规则的数量不能明显区分长内存和无内存来源。
Sep, 2022
通过变化训练数据的数量,我们研究了BPE tokenizers的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的tokenizer是一个有前景的研究方向。
Mar, 2024
通过使用一种基于词素的编码约定(MYTE),我们能够代表多种语言的相同信息,并改善多语言语言模型性能以及减少了不同语言之间的困惑度差异。
Mar, 2024
通过引入Character-Aware Constraint Encoder (CACE)和Intra-Inter Consistency Loss (I^2CL)的方法,本研究提出了一种新颖的方法来增强字符的可区分性,提升了场景文本识别模型的性能。
Jul, 2024