- 离散数据的简化和推广掩码扩散
掩蔽扩散模型是生成离散数据的自回归模型的替代选择,本论文提出了一个简单且通用的框架,解锁了掩蔽扩散模型的全部潜力,并在 OpenWebText 数据集上训练的模型在困惑度上超过了 GPT-2 模型,并在 5 个零 - shot 语言建模任务 - ACL太大而无法失败:较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力
神经网络的内在评估指标,困惑度(PPL),被广泛用于理解自回归神经语言模型(NLMs)的行为。该研究探索了一种新型的双向注意力头切除方法,其呈现了与人脑研究中认知和大脑储备概念相关的特性,暗示了转换器模型中的注意机制可能与神经退行性疾病和衰 - SliM-LLM:面向大型语言模型的显著性驱动混合精度量化
本文提出了一种基于显著性驱动的混合精度量化方案,即 SliM-LLM,用于改进大型语言模型的精度和内存占用,并通过集成梯度量化器进一步减少困惑度。
- 大数定律的奴隶:生成式语言模型中困惑度的渐近等分性质
我们提出了一个新的渐进均分特性来解析语言模型生成的大段文本的困惑度,并对该特性提出理论证明。困惑度,作为一个逆似然函数,被广泛用作训练语言模型的性能度量。我们的主要结果表明,由语言模型生成的任何大段文本的对数困惑度必须渐进地收敛到其令牌分布 - 能否通过困惑度反映大型语言模型对长篇文本理解的能力?
最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。 - 用于尼泊尔语序列语言模型的标记化效果对微调性能的预测能力调查
使用 6 种不同的分词方案预先训练了相对较小的尼泊尔语言模型,并发现相比于字节级 BPE 算法,SentencePiece 等算法在尼泊尔的微调性能上表现更好。此外,我们还预先训练和微调了基于顺序转换器的语言模型。
- 在神经压缩文本上训练 LLMs
本文探讨了在高度压缩的文本上训练大型语言模型(LLMs)的想法。通过提出等信息窗口这一新的压缩技术,我们展示了在神经压缩文本上有效学习的方法,该方法在规模上得到了改进,并在复杂度和推理速度基准测试中大大优于字节级基准。
- 单调改写提高语言模型启示的泛化能力
我们提出了一种单调改写方法(MonoPara),通过一个将提示或指令改写成更低困惑度的改写语言模型和一个用于限制生成更低困惑度的目标语言模型的组合解码过程,对原始提示进行改写而不改变其语义含义,从而降低生成的困惑度,提高零样本语言模型的表现 - 大型语言模型的量化策略的全面评估
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支 - EBFT: 有效和块级的稀疏 LLMs 微调
我们提出了一种基于最小化重构误差的高效快速稀疏 LLMs 微调框架,通过采样小数据集进行校准,并利用反向传播逐块优化重构误差,从而获得最佳解决方案。我们在各种基准测试中进行了广泛实验,始终证明我们的方法优于其他基准线。
- 认知驱动的语言模型中的词序普遍规律
语言的世界呈现出特定的类型学或意向性普遍现象;例如,主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟,我们研究了语序普遍现象。我们的实验表明,具有类型学典型语序的语言模型的困惑度较低,其中包括认知可行的偏见:句法 - 模型编辑的蝴蝶效应:少量编辑可触发大型语言模型崩溃
模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究,以及开发 HardCF 数据集探索模型编辑的潜在风险。
- REBORN: 强化学习边界分割与迭代训练用于无监督 ASR
无监督自动语音识别(ASR)的关键问题是在没有成对的语音 - 文本数据监督的情况下,学习语音信号与其相应的文本转录之间的映射。本文提出了一种名为 REBORN 的方法,用于无监督 ASR,通过交替训练分割模型和音素预测模型来学习语音和文本之 - DenseFormer: 通过深度加权平均增强 Transformer 中的信息流传
提出了 DenseFormer 这种简单修改的转换器架构,通过在每个转换器模块之后添加一个平均步骤来改进模型的困惑度,减少了内存消耗和推理时间,并且在相同困惑度下表现优于转换器基线模型。
- ALMs:作者语言模型用于作者归属
本文介绍了一种作者归属方法,即作者语言模型 (ALMs),它通过对一组候选作者的文本进行经验修正得到的调整语言模型的困惑度,从而识别问询文档的最有可能的作者。我们使用 CCAT50 数据集和 Blogs50 数据集对 ALMs 进行了基准测 - 基于困惑度度量和上下文信息的标记级对抗性提示检测
本文提出了一种基于令牌级别检测方法来识别对抗提示的方法,利用大型语言模型的能力来预测下一个令牌的概率,测量模型的困惑度并结合相邻令牌信息,以鼓励检测连续的对抗提示序列,提出了两种方法:一种将每个令牌识别为是否属于对抗提示的一部分,另一种估计 - 论检索增强和语言模型训练的局限性
这项研究探讨了将 kNN 检索应用于 GPT-2 117M 等传统语言模型中,以提高性能,证实了通过这种方法可以降低困惑度,并解释了这一现象的潜在原因。
- EMNLP透明、来源:评估和解释有真实分布访问的语言模型
我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法(基于状态拆分的 PCFGs)生成数据,该语法源自大型自然语言语料库,但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度 - 通过在分段序列上训练扩展语言模型的输入上下文
在没有架构更改和额外存储成本的情况下,通过对分段序列的训练和基于插值的方法来扩展绝对位置嵌入,我们开发了一种训练过程,以扩展预训练模型的输入上下文大小。我们的方法能够将输入上下文扩展 4 倍,同时改善困惑度。
- 压缩 LLMs:真实很少纯粹而简单
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,