该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本文提出的 CharBERT 模型是一个字符感知的预训练语言模型,通过新颖的异构交互模块将字符表示和子词表示进行融合,并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务,实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。
Nov, 2020
本研究描述了一种仅依赖字符级输入的简单神经语言模型,该模型利用卷积神经网络和字符级公路网络作为输入,并将结果给予一种长短时记忆递归神经网络语言模型作为输出,该模型可以用较少的参数占据现有最先进的地位。此外,该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模,且可以从字符组成的部分编码的单词表示中得到语义和字形信息。
Aug, 2015
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体,实现 1.13 和 1.06 的最小比特位 (bit per character)。
Aug, 2018
本文研究了基于字节级别文本的 Transformer 架构,相比于基于词或子词的标准模型,该模型可处理任何语言的文本,更加稳健且精度更高,并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。
May, 2021
该研究提出了一个无需分词的神经机器翻译模型,在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型,不仅速度快,泛化性能好,而且能够跨多语言实现高质量普适翻译,效果优于子词级编码器。
Oct, 2016
利用 oLMpics 基准和心理语言学探测数据集,我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明,这些模型都无法以零样本的方式解决组成性问题,并且全局模型决策也不能预测模型的语言能力。
May, 2022
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
本文探讨了使用字符级别的解码器和子词级别的编码器在神经网络机器翻译中能否生成一个不需要显式分段的字符序列,并使用 WMT'15 平行语料库对四种语言对 - En-Cs、En-De、En-Ru 和 En-Fi 进行了实验,结果表明具有字符级别解码器的模型在所有四种语言对上的表现均优于具有子词级别解码器的模型,在 En-Cs、En-De 和 En-Fi 上的神经网络插件比最先进的非神经机器翻译系统更为优秀,在 En-Ru 上性能相当。
Mar, 2016
本文研究了基于字符级编码器解码器框架在结构化知识库上完成问答的方法,并使用简单问题数据集对模型进行了验证,证明该模型不依赖于集成就能将准确度从 63.9% 提升至 70.9%。该字符级模型只有相当于词级模型的 16 倍的参数,需要更少的数据,同时在测试中对新实体也非常鲁棒。
Apr, 2016