如何进行字符级别的编码器模型

ACLMay, 2023

What is the best recipe for character-level encoder-only modelling?

Kris Cao

TL;DR本研究旨在为最近提出的在字符级别输出上下文表示的语言理解模型建立基准，探讨了不同架构和不同预训练目标对最终模型性能的相对贡献，发现字符级别的最佳性能超过了基于标记的模型，在多语言语言表示方面具有广泛应用前景，但最佳的训练方法仍取决于标记器的质量。

Abstract

This paper aims to benchmark recent progress in language understanding models that output contextualised representations at the character level. Many such modelling architectures and methods to train those archit

language understanding models contextualised representations character-level models pretraining objectives bert-like models

发现论文，激发创造

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

CharBERT：基于字符的预训练语言模型

本文提出的 CharBERT 模型是一个字符感知的预训练语言模型，通过新颖的异构交互模块将字符表示和子词表示进行融合，并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务，实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。

Nov, 2020

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

不需显式分段的全字符级神经机器翻译

该研究提出了一个无需分词的神经机器翻译模型，在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型，不仅速度快，泛化性能好，而且能够跨多语言实现高质量普适翻译，效果优于子词级编码器。

Oct, 2016

BERT 之后：其他木偶对语言的理解

利用 oLMpics 基准和心理语言学探测数据集，我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明，这些模型都无法以零样本的方式解决组成性问题，并且全局模型决策也不能预测模型的语言能力。

May, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

神经机器翻译中无需显式分词的基于字符级别解码器

本文探讨了使用字符级别的解码器和子词级别的编码器在神经网络机器翻译中能否生成一个不需要显式分段的字符序列，并使用 WMT'15 平行语料库对四种语言对 - En-Cs、En-De、En-Ru 和 En-Fi 进行了实验，结果表明具有字符级别解码器的模型在所有四种语言对上的表现均优于具有子词级别解码器的模型，在 En-Cs、En-De 和 En-Fi 上的神经网络插件比最先进的非神经机器翻译系统更为优秀，在 En-Ru 上性能相当。

Mar, 2016

基于注意力机制的字符级问答

本文研究了基于字符级编码器解码器框架在结构化知识库上完成问答的方法，并使用简单问题数据集对模型进行了验证，证明该模型不依赖于集成就能将准确度从 63.9% 提升至 70.9%。该字符级模型只有相当于词级模型的 16 倍的参数，需要更少的数据，同时在测试中对新实体也非常鲁棒。

Apr, 2016