评估字节和 Wordpiece 级别的模型在大规模多语言语义分析中的应用

MMDec, 2022

评估字节和 Wordpiece 级别的模型在大规模多语言语义分析中的应用

Evaluating Byte and Wordpiece Level Models for Massively Multilingual Semantic Parsing

Massimo Nicosia, Francesco Piccinno

TL;DR本研究研究并比较了一个基于字节的（ByT5）和基于单词片段的（mT5）序列模型在 51 种语言的 MASSIVE 多语种语义分析数据集上的表现，实验结果表明通过使用最新的标签投影方法，机器翻译示例可以显著提高精确度，与在所有语言的黄金数据上训练的模型只有 5 个百分点的差距，并提供了有关 ByT5 的跨语言转移及其相对于 mT5 在所有参数大小上的各自表现的见解。

Abstract

token free approaches have been successfully applied to a series of word and span level tasks. In this work, we compare a byte-level (ByT5) and a wordpiece based (mT5) sequence to sequence model on the 51 languag

token free approaches byte-level wordpiece-based multilingual semantic parsing cross-lingual transfer

发现论文，激发创造

使用 ByT5 模型进行大规模多语言字素到音素转换

使用 ByT5 模型，我们从不同来源中整理出覆盖 100 种语言的 G2P 数据集，并训练了大规模的多语种 G2P 模型。与单语模型相比，多语种 ByT5 模型通过同时学习多种语言降低了电话错误率，可进一步通过无监督预测或微调，帮助低资源语言的写作转音。

Apr, 2022

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

缓解句级音素转换中的接触偏差

该研究展示了使用我们提出的基于损失的采样方法可以缓解自回归生成模型中的曝光偏差，从而改善句级别和段落级别的 G2P 转换性能。

Aug, 2023

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

MonoByte：单语字节级语言模型池

本研究发布了 10 个在相同配置下严格预训练的单语模型，它们是基于字节的，不需要分词，可以消除未见标记嵌入的问题，并且可以在不同文字脚本的语言中尝试更广泛的跨语言实验，通过 QA 和 NLI 任务的实验证明，这些单语模型的性能与多语言模型相当，可以加强我们对语言模型跨语言可迁移性的理解。

Sep, 2022

从字节开始的多语言处理

通过基于 LSTM 的 Byte-to-Span 模型，我们能够读取以 byte 形式表示的文本，并输出 [start, length, label] 的 span annotations，由于直接操作 unicode bytes 而非语言特定的单词或字符，所以我们能够用单个模型分析多种语言。这些多语言模型非常紧凑且不需要任何自然语言处理的标准流程（包括分词），因此能够独立运行于原始文本上，并在命名实体识别和词性标注等方面产生类似或更好的结果。

Dec, 2015

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

ByteT5 在代表性较弱的语言的《圣经》文本多语言翻译中的效果

本研究提出了一种基于 ByteT5 的多语言翻译模型，旨在将圣经翻译成少数语言。通过使用约翰・霍普金斯大学圣经语料库进行训练，我们使模型能够捕捉基于字符和形态丰富的语言的复杂细微差别。我们的结果通过 BLEU 分数和样本翻译进行衡量，表明该模型可以提高对神圣文本的可访问性。它有效地处理了独特的圣经词汇和结构，从而弥合了语言分歧。本研究还讨论了模型的局限性，并提出了未来增强的途径，重点是在跨语言界限上扩大对神圣文学的获取。

May, 2024

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022