该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如 BPE 和 Morfessor 等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
通过分析预训练语言模型的嵌入层,研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息,但它仍然能够拼写正确达到整体词汇量的三分之一,并在所有令牌类型上达到了高平均字符模型重叠度。而且,通过额外的字符信息来丰富子词模型的训练并不能提高其在语言建模上的性能。总体来说,该研究表明语言建模目标会激励模型隐式地学习拼写知识,而显式地教授拼写知识并不能提高其性能。
Aug, 2021
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
对于语言中包含丰富词形的复杂语言,使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是,对于语义任务,基于子单元的 PLM 表现更好,这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。
Apr, 2022
本文研究自然语言中实体的多层表示学习方法,包括字符级、单词级和实体级。我们比较了各级别上的现有学习方法,确认每个级别的表示都提供互补信息,同时提出将三个级别的表示联合起来可以大幅度提高细粒度实体类型识别的性能,而添加实体描述信息能够进一步增强多层次的实体表示。
Jan, 2017
该研究研究了如何使用基于子词级别表示的模型进行句子对建模,结果表明在对语义和字符串相似性要求较高的语境下,不需要预先训练的单词嵌入也可以实现最先进的结果。该方法在社交媒体数据集上实现了最新成果,在新闻数据集上也取得了有竞争力的结果。
May, 2018
本文提出了一种混合粒度的中文 BERT 模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文 NLP 任务上进行了广泛的实验以评估现有的 PLMs 以及所提出的 MigBERT,实验结果表明,MigBERT 在所有这些任务中都实现了新的最佳表现,MigBERT 还能与日语一起使用。
Mar, 2023