- xLSTM:扩展的长短期记忆
我们修改并扩展 LSTM 的门控机制和记忆结构,得到了 xLSTM 模型,该模型在性能和规模上与最先进的 Transformer 模型和状态空间模型相比表现出色。
- 无需种植树木的语法学习:理解变换器何时以及何种方式实现分层普遍化
透过对自然语言数据训练的 Transformer 模型的研究和实验证明,具备语言建模目标的 Transformer 模型更容易学习和推广层次结构,并在处理无法预见的句法结构的句子时表现优异。
- 超越查询:通过强化学习训练更小的语言模型进行网络交互
针对传统搜索系统在产品搜索等场景中面临的挑战,本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架,名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构,结合语言建模和价值评 - ACL语言的更多空间:探究检索对语言模型的影响
利用 “理想检索” 方法研究检索增强语言模型,评估检索增强对语言模型行为的影响,观察到这些模型在权重保存方面具有更少的世界知识,在理解局部上下文和词间依赖方面表现更好,但在理解全局上下文方面表现更差。
- ACL通过多指令训练教授一种多语言的大型语言模型理解多语言语音
利用多语言语言模型与多语言语音编码器,本研究提出 BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言 - 文本的双模态:视觉和文本生成预训练
对于像素级语言模型,本论文介绍了一种新颖的预训练框架,通过在超过 4 亿个文档渲染的 RGB 图像上预训练,采用双模态训练方案,结合视觉数据和文本数据,通过下一个块预测和分类头预测进行训练,并展示了将视觉和文本数据结合的潜力及有效性。
- 压缩线性地表现智能
通过研究语言模型作为数据压缩器,我们发现大型语言模型的智能,通过平均基准分数与其压缩外部文本语料库的能力几乎呈线性相关,并且压缩效率作为从原始文本语料库中派生的无监督度量,可作为与模型能力相关的可靠评估措施。
- 关于 LLMs 中的分词理论
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
- HGRN2:具有状态扩展的门控线性循环神经网络
HGRN2 通过引入基于外积的状态扩展机制,在不引入额外参数的情况下,显著增加了循环状态大小,提高了语言建模、图像分类和长距离竞技场方面的性能。
- 小型语言模型性能下降的原因:通过 Softmax Engular 点探究语言模型饱和现象
在语言建模中,研究人员发现较小的模型在训练后期可能会出现饱和现象,其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配,由此导致线性预测头的性能下降。实验结果表明,隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示 - Transformer 可解释性转移到 RNN 中吗?
最近在递归神经网络(RNN)架构方面取得的进展,例如 Mamba 和 RWKV,使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过,这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选 - AdamW 的隐式偏差: l∞范数约束优化
AdamW 在语言建模任务中表现出优越的性能,优于具有正则化 l2 项的 Adam 算法,本文通过分析表明 AdamW 隐式地进行了约束优化。
- Edisum: 大规模概述和解释维基百科编辑
通过使用语言模型生成的有效编辑摘要,该研究论文提出了为编辑人员提供编辑摘要推荐模型的方法,以解决维基百科上的编辑摘要缺失的问题,并展示了语言模型技术如何支持人类在维护一个最大、最可见的网络项目上的应用。
- RALL-E: 强大的编解码器语言建模与思维链刺激在文本合成中的应用
RALL-E 是一种用于文本到语音合成的鲁棒语言建模方法,通过链式思维提示和自注意力机制来增强基于大型语言模型的语音合成的稳健性。
- 语言模型是否对未来的标记进行计划?
transformers 在推断期间是否有预先思考。我们提出了两种解释:预缓存和面包屑。通过训练语言模型来测试这些假设,我们在合成数据设置和自回归语言建模设置中找到了明确的证据。
- COLING一种新的大规模多语言数据集用于高性能语言技术
我们介绍了 HPLT(高性能语言技术)语言资源,这是一个包括来自 CommonCrawl 和互联网档案的先前未使用的网络爬取的单语和双语语料库的大规模多语言数据集。我们描述了我们采集、管理和处理大型语料库的方法,这些方法依赖于开源软件工具和 - 拆解标记化:评估文本压缩及其与模型性能的相关性
通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。
- 重尾类不平衡问题及 Adam 在语言模型上的优越性
Adam 优化算法在大型语言模型上的性能明显优于梯度下降算法,主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。
- 通过更稀疏的选择提高稀疏模型的效率
提出了 ool,一种新颖的 MoE 模型,通过利用小型专家和基于阈值的路由器,实现了对模型性能的提升,并在减少计算负载 50% 以上的同时,不牺牲性能。
- GlórIA - 一种面向葡萄牙语的生成式和开放性大型语言模型
通过 Gl'orIA 这一强大的欧洲葡萄牙语解码器 LLM,在多个下游任务中,Gl'orIA 在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。