- Cheems: 出色矩阵更高效和更有效的架构
使用不同的位置编码和更有效的混合专家方法,研究了结构化状态空间双算法在跨域混合专家中的效果,提出了效率更高的 Cheems 稀疏架构,对比其他混合架构在语言建模任务中更加高效而有效。
- 法律特化的力量:Lawma
通过对 260 个法律文本分类任务的全面研究,我们发现精调的 Llama 3 模型在几乎所有任务上都大大优于 GPT-4 模型,大模型对精调的响应比小模型好,只需要几十到几百个示例就能实现高准确性的分类。我们的研究为使用精调的开源模型提供了 - 提升检索的机器学习:综述和机遇
该研究介绍了一种形式化的检索增强机器学习(REML)范式,通过综合不同领域的机器学习文献,为研究人员提供了一个全面、形式化结构的检索增强模型框架,以促进跨学科的未来研究。
- 一个语言建模方法应用于无变音符号的希伯来文 TTS
我们提出了一种使用语言建模的无附加符号方法来解决希伯来语 TTS 的问题,通过在离散语音表示上进行操作,条件是一个词片段分词器。我们使用实际数据对所提出的方法进行优化,并将其与几种基于附加符号的 TTS 系统进行比较。结果表明,在内容保留和 - 探索量化技术以提高 Transformer 语言模型的高效预训练
本研究旨在探索 Quantization 对 Transformer 模型进行高效的预训练的影响,重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态,我们评估其对模型的效率、稳定性和训练性能的影响。通过提供 - 语言建模的社会语言学基础
本文介绍了语言建模的社会语言学视角,论述了大规模语言模型本质上是语言的各种变体,并探讨了该视角如何在语言建模的开发和应用中发挥作用。我们首先提出了社会语言学中对语言变体的概念的技术定义,然后讨论了这一视角如何帮助解决语言建模中的五个基本挑战 - MAGNET:使用自适应基于梯度的分词提高语言模型的跨语言公平性
MAGNET 通过自适应梯度基础的分词来减少多语言环境下非拉丁字母脚本的过度分段,它利用模型内部的子模块(Tokenizer)学习预测字节标记之间的段边界。通过实验证明,MAGNET 不仅能减少分词差异,还能提高语言建模的速度和下游效用。
- LETS-C: 基于语言嵌入的时间序列分类
利用语言编码器将时间序列数据进行嵌入,结合简单且有效的分类器,可以在保持轻量级模型架构的同时实现高性能的时间序列分类。
- Sparser 更快且更简洁:用于长程 Transformer 的高效稀疏注意力机制
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
- 无监督形态树分词器
通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于 BPE 和 WordPiece 等广泛采用的方法。
- 信息引导的正则化用于微调语言模型
传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下 - 自蒸馏模型叠加在 200 + 种语言中实现跨语言自然语言理解
通过将 MT 编码器直接集成到 LLM 主干中,我们通过样本高效的自我蒸馏获得了 MT-LLM,从而将低资源语言与以英语为中心的 LLM 中嵌入的丰富知识相结合,实现了跨语言的多语言语言理解。
- 通过多目标奖励建模和专家混合解释性偏好
通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现,并接近更大的 Nemotron-4 340B 奖励模型的性能。
- LiLiuM: eBay 的大型语言模型用于电子商务
我们介绍了由 LiLiuM 系列构成的大型语言模型(LLMs):1B、7B 和 13B 参数模型,这些模型完全由 eBay 内部开发,以适应 eBay 在电子商务领域的特定需求,并实现了对模型许可、数据、词汇表和架构的全部控制,使得它们可以 - 离散数据的简化和推广掩码扩散
掩蔽扩散模型是生成离散数据的自回归模型的替代选择,本论文提出了一个简单且通用的框架,解锁了掩蔽扩散模型的全部潜力,并在 OpenWebText 数据集上训练的模型在困惑度上超过了 GPT-2 模型,并在 5 个零 - shot 语言建模任务 - SpikeLM: 基于弹性双脉冲机制的通用脉冲驱动语言建模
向类似人脑的高能效人工智能迈进,生物启发的脉冲神经网络(SNN)具有生物合理性、事件驱动的稀疏性和二值激活的优势。本文提出了首个全脉冲机制,以处理包括鉴别性和生成性任务在内的一般性语言任务。与现有 SNN 中的二值脉冲不同,我们提出了一种具 - ICML一种促进独立性的损失函数用于语言模型生成音乐
介绍了一种应用于音乐生成的语言模型的自动编码器作为标记器的独立性促进损失,通过减少码书之间的统计相关性,提高了生成音乐的质量和速度。
- ICML变压器是 SSM:通过结构化状态空间对偶实现的广义模型和高效算法
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duali - SeamlessExpressiveLM: 链条思维情感语言模型用于表达性语音到语音翻译
提出了 SeamlessExpressiveLM,一个用于表情化语音到语音翻译的单一语言模型,通过分解复杂的源到目标语音映射为中间生成步骤,并结合思维链引导模型,实现了在西班牙语到英语和匈牙利语到英语翻译中优于级联语言模型的语义质量和风格转 - 上下文位置编码:学会计算重要的东西
提出了一种新的位置编码方法:上下文位置编码 (CoPE),使得位置可以被上下文条件化,可以实现更一般的位置指定,例如参考第 $i$ 个特定词、名词或句子。该方法能够解决选择性复制、计数和翻转任务,并提高语言建模和编码任务的困惑度。