超越语言模型：字节模型是数字世界模拟器

Feb, 2024

超越语言模型：字节模型是数字世界模拟器

Beyond Language Models: Byte Models are Digital World Simulators

Shangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li...

TL;DR通过使用下一个字节预测，bGPT 模型能够匹配各种模式的专业模型，包括文本、音频和图像，并为预测、模拟和诊断算法或硬件行为提供新的可能性。

Abstract

Traditional deep learning often overlooks bytes, the basic units of the digital world, where all forms of information and operations are encoded and manipulated in binary format. Inspired by the success of next t

deep learning bytes bgpt next byte prediction simulation

发现论文，激发创造

ByteSized32：一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务

研究了语言模型在生成基于科学和常识推理任务的世界模型的能力，以生成基于任务的文本游戏解决方案作为问题。使用 32 款高度模板化的 Python 文本游戏和一套用于评估的 16 个未见过的文本游戏说明书，提出了一系列衡量模拟的有效性、合规性、可玩性、可赢性和与物理世界的对齐度的自动和手动度量标准，并展示了 GPT-4 在运行此项任务时产生可运行游戏的能力的单次评估结果，结果表明这是一项非常具有挑战性的任务，重点讨论了未来改进的方向，包括 GPT-4 表现出的能力，可以很好地模拟远近达到标准任务解决方案，并且随着模拟包含干扰物或偏离动作空间中的标准解决方案而性能下降。

May, 2023

语言模型是否能作为基于文本的世界模拟器？

当前文本基模型在作为文本世界模拟器方面的表现仍不可靠，需要进一步创新，本研究提供了新的见解和新的基准来追踪未来模型的发展。

Jun, 2024

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

本文提出了两个端到端模型：Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本，并且通过使用字节代替大的 softmax 函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Nov, 2018

符号音乐的字节对编码

本文研究在深度学习任务中，如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码，以提高音乐生成和作曲家分类模型的性能和均匀度。

Jan, 2023

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

适应神经脑机接口预测输入的 Transformer 语言模型

使用 Transformer 语言模型进行字符预测可以很大程度上加快 BCI 打字速度，本文针对几种基于 wordpiece 级别的 Transformer 语言模型进行了评估，并发现 GPT-2 可以在干净的文本上取得最佳效果，同时分析了字符位置和上下文长度对打字速度的影响。

May, 2023

从字节开始的多语言处理

通过基于 LSTM 的 Byte-to-Span 模型，我们能够读取以 byte 形式表示的文本，并输出 [start, length, label] 的 span annotations，由于直接操作 unicode bytes 而非语言特定的单词或字符，所以我们能够用单个模型分析多种语言。这些多语言模型非常紧凑且不需要任何自然语言处理的标准流程（包括分词），因此能够独立运行于原始文本上，并在命名实体识别和词性标注等方面产生类似或更好的结果。

Dec, 2015

使用 ByT5 模型进行大规模多语言字素到音素转换

使用 ByT5 模型，我们从不同来源中整理出覆盖 100 种语言的 G2P 数据集，并训练了大规模的多语种 G2P 模型。与单语模型相比，多语种 ByT5 模型通过同时学习多种语言降低了电话错误率，可进一步通过无监督预测或微调，帮助低资源语言的写作转音。

Apr, 2022

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019