使用类型层干预训练在基于子词的语言模型中引入字符级结构

Dec, 2022

使用类型层干预训练在基于子词的语言模型中引入字符级结构

Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training

Jing Huang, Zhengxuan Wu, Kyle Mahowald, Christopher Potts

TL;DR该论文介绍了基于字符级别的操作（如拼写纠正、字谜游戏）对于基于子单词分词的模型非常具有挑战性。为了解决这个问题，作者采用了 Geiger 等人 2021 年的交互式干预训练方法，将其适应到基于字符的类型变量上。该方法可以在子单词分词模型的内部表示中编码稳健的、位置独立的字符级别信息。作者还介绍了一套字符级别的任务，这些任务在依赖于含义和序列级别上下文的程度上有所不同。虽然对于纯粹的形式任务（如字符串翻转）来说，简单的字符级别分词方法仍然表现最佳，但我们的方法对于更复杂的任务，如上下文中的拼写纠正和文字搜索游戏，则更加优越。我们的方法还导致了基于子单词的模型具有人类可解释的内部表示形式。

Abstract

Language tasks involving character-level manipulations (e.g., spelling correction, many word games) are challenging for models based in subword tokenization. To address this, we adapt the interchange intervention traini

character-level manipulations interchange intervention training subword-based models character-level tasks human-intepretable internal representations

发现论文，激发创造

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

拼字比赛中的模型：语言模型隐式学习到了单词字符组成

通过分析预训练语言模型的嵌入层，研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息，但它仍然能够拼写正确达到整体词汇量的三分之一，并在所有令牌类型上达到了高平均字符模型重叠度。而且，通过额外的字符信息来丰富子词模型的训练并不能提高其在语言建模上的性能。总体来说，该研究表明语言建模目标会激励模型隐式地学习拼写知识，而显式地教授拼写知识并不能提高其性能。

Aug, 2021

我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

通过一系列干预和实验证明，我们可以理解语言模型对于存在语言变异（例如非标准或方言文本）的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预，通过不同规模和性质的训练数据进行语言模型适应，我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。

Apr, 2024

学习字符和子词的相互信息表示

该研究使用预训练语言模型和交织模型，在处理不同粒度的文本时，提高了模型的泛化能力并在多个 NLP 任务中取得了优秀的性能。

Nov, 2023

Breaking Character: MRLs 是否真的只需要使用子词？

对于语言中包含丰富词形的复杂语言，使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是，对于语义任务，基于子单元的 PLM 表现更好，这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。

Apr, 2022

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

通过可挂载的子词替换进行字符级白盒对抗攻击来攻击变形金刚

我们提出了第一个针对 transformer 模型的字符级白盒对抗攻击方法。我们的方法主要包含三个步骤：选择最脆弱的单词，将其拆分成次标记，以及使用适当的替换次标记。我们的实验结果表明，与先前的攻击方法相比，我们的方法在成功率和编辑距离方面都有更好的表现。

Oct, 2022

基于字符级 Transformer 的神经机器翻译

本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型，实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的，代码和模型已经公开发布。

May, 2020

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

层次字符 - 词语模型在语言识别中的应用

本文介绍了一种基于层次模型的语言识别方法，其中字符级和上下文化的词级表示能够很好地处理社交媒体消息的简洁特性和非传统拼写，同时还能揭示代码开关现象。

Aug, 2016