中文字符级背包语言模型

Oct, 2023

Character-level Chinese Backpack Language Models

Hao Sun, John Hewitt

TL;DR通过对字符分割的中文进行训练、评估、解释和控制，我们发现我们的（134M 参数）中文 Backpack 语言模型在性能上与（104M 参数）Transformer 相当，并且学习到了丰富的字符级意义，通过对数相加形成词汇的意义。在 SimLex 风格的词汇语义评估中，Backpack 字符意义的简单平均超越了 Transformer 的输入嵌入。我们发现，复杂的多字符意义通常通过在上下文中一致使用相同的字符意义权重来形成。通过控制来探索可解释性，我们发现我们可以将 Backpack 中的性别偏见定位到特定的字符意义并采取措施来减少偏见。

Abstract

The backpack is a Transformer alternative shown to improve interpretability in English language modeling by decomposing predictions into a

backpack interpretability language modeling chinese character-tokenized

发现论文，激发创造

背包语言模型

Backpacks 是一种新的神经架构，它将强大的建模性能与可解释性和控制界面相结合。 Backpacks 通过学习每个词语的多个非上下文意义向量，将一个序列中的词表示为上下文相关的非负线性组合。我们还介绍了一些在感知向量上进行控制的简单算法，以实现可控的文本生成和去偏见。

May, 2023

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

基于自注意力机制的字符级翻译

本文研究了自注意力模型在字符级神经机器翻译中的适用性，并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验，使用最多三种输入语言（法语，西班牙语和中文）进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer，并收敛更快，并学习更稳健的字符级别对齐。

Apr, 2020

汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

本文提出了一种混合粒度的中文 BERT 模型（MigBERT），通过同时考虑字符和词来学习其特征表示，并在各种中文 NLP 任务上进行了广泛的实验以评估现有的 PLMs 以及所提出的 MigBERT，实验结果表明，MigBERT 在所有这些任务中都实现了新的最佳表现，MigBERT 还能与日语一起使用。

Mar, 2023

基于字符的神经机器翻译

本研究介绍了一种基于字符级别表示的神经机器翻译模型，该模型使用注意力机制实现从字符级别到单词级别的翻译，并具有一定的词形识别与生成能力。

Nov, 2015