修补 Charformer 中的漏洞，以实现高效的字符级生成

May, 2022

修补 Charformer 中的漏洞，以实现高效的字符级生成

Patching Leaks in the Charformer for Efficient Character-Level Generation

Lukas Edman, Antonio Toral, Gertjan van Noord

TL;DR本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法，从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势，但训练速度可以提高 30%，在英––土耳其翻译中表现优异，表明字符级模型在形态丰富的语言中具有潜在的优势。

Abstract

character-based representations have important advantages over subword-based ones for morphologically rich languages. They come with increased robustness to noisy input and do not need a separate tokenization ste

character-based representations morphologically rich languages charformer method transformer decoder nmt

发现论文，激发创造

Charformer: 基于梯度的子词分词加速字符变换器

该研究提出了使用渐变学习的子单词标记模块（GBST）作为深度 Transformer 模型 Charformer 的一部分来进行端到端学习，以在自然语言处理中改进字节级模型的性能。在英语 GLUE、多语言和噪声文本数据集上的结果表明，Charformer 在速度上快于标准字节级和子单词级 Transformers 28-100％，同时保持了有竞争力的质量。

Jun, 2021

基于子词分割的下采样在字级别翻译中的应用

通过引入一种新的信息量更大的降采样方法，将字符水平的机器学习模型在机器翻译领域中的表现提高到与子词水平的模型接近。

Dec, 2022

通过微调子词系统实现合理大小的基于字符级别的 Transformer NMT

实现字符级别的 Transformer 架构通常需要非常深的架构，难以训练。本文提出一种通过在模型中将分词与字元结合进行初步训练，然后在字符级别上调整，从而实现不需要分词的神经机器翻译模型的方法，并且展示了这种方法更好地捕捉了语言形态现象和更加健壮，训练的代价相对较小。

Apr, 2020

基于字符的神经机器翻译：容量和压缩的再思考

本论文通过设计深度模型对字符级信息进行序列到序列建模，并且验证了该模型优于传统的基于单词片段的模型，从而为字符级神经机器翻译提供了参考。同时，通过评估多种字符级 NMT 技术，发现它们不能与深层字符基线模型的表现相匹配。最后，我们还在该框架内进行了针对 NMT 的条件计算时间的第一次评估。

Aug, 2018

基于字符的 Transformer 神经机器翻译

本文研究了字符级别的翻译和基于 Transformer 架构的输入与输出之间的影响，并通过对 EN-DE 的实验发现字符级别 Transformer 模型比其 BPE 模型更具鲁棒性。为了在干净、领域特定的数据中获得可比的 BLEU 分数并缩小与基于 BPE 的模型之间的差距，我们采用已知的技术训练更深层的 Transformer 模型。

Nov, 2019

将 Transformer 应用于字符级转换

这项研究比较了循环神经网络和 transformer 在字符级转换任务方面的表现，发现 batch size 在 transformer 的性能上扮演了关键的角色，在足够大的 batch size 下，transformer 的表现强于循环模型。此外，还提出了一种简单的方法来处理特征导向的字符级转换，并在形态学屈折和历史文本规范化两个任务上实现了最先进的表现。实验结果表明，与强基准相比，transformer 在两个其他字符级转换任务上的表现有所提高：字素到音素的转换和音译。

May, 2020

面向形态丰富语言的字符感知解码器

本文针对神经机器翻译系统忽略词法低层级模式的问题，提出一种字符感知解码器，通过卷积神经网络结构训练，以实现针对语言词法丰富情况下的 MT 系统翻译质量提升。实验结果表明，本文方法在 14 种不同类型的语言翻译中，能够显著提升 BLEU 得分。

Sep, 2018

基于字符级 Transformer 的神经机器翻译

本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型，实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的，代码和模型已经公开发布。

May, 2020

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

字符级对抗攻击的重新审视

通过引入 Charmer 方法，本研究在自然语言处理领域中的对抗攻击达到了高攻击成功率，生成高度相似的对抗性样本，并在 BERT 和 Llama 2 等模型上进行了测试，相较于之前的方法，在 BERT with SST-2 上提高了攻击成功率达 4.84 个百分点和 USE 相似度提高了 8 个百分点。

May, 2024