- 诱导模型匹配:限制型模型如何帮助更大的模型
考虑使用限制特征的非常准确的预测模型在训练更大的全功能模型时的情景,通过将全功能模型的限制上下文性能与限制模型的上下文性能进行对齐,我们提出了一种将限制模型的知识转移到全功能模型的方法,称为引导模型匹配(IMM),并通过逻辑回归和语言建模等 - 塑造人工智能协作:与语言模型共同撰写中的多层支架水平
大语言模型的不同程度脚手架支持对协作写作过程的影响进行了探讨。在一个拉丁方设计的实地实验中,共有 131 位参与者在无 AI 辅助(对照组)、下一句建议(低脚手架)和下一段建议(高脚手架)三种随机顺序的条件下回答辩论写作问题。研究发现,脚手 - 基于熵正则化的大型语言模型的令牌级策略优化
基于大型语言模型的研究中,引入了一种基于令牌级策略优化的熵调整强化学习方法(ETPO),致力于优化令牌级的语言模型,结果显示 ETPO 在数据科学代码生成任务中取得了良好的性能改进,具有优化交互决策能力的潜力。
- 利用语言模型在虚拟环境中改善代理间的交互
通过语言建模,本研究旨在提高 Minecraft 数据集中群体构建任务的任务理解,这些模型集中于基于多模态理解和任务导向对话理解任务,展示了比现有方法大幅改进的实验结果,为未来研究指明了一个有前景的方向。
- Transformer 模型在上下文自回归学习中的性能表现
基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式,同时研究了正交矩阵和位置编码对于模型性能的影响。
- 上下文学习的发展景观
我们展示出,在 transformers 上进行语言建模或线性回归任务训练时,出现了离散的发展阶段中的上下文学习,并引入了两种方法来检测分隔这些阶段的里程碑,通过探测参数空间和函数空间中种群损失的几何结构。我们使用一系列行为和结构度量来研究 - Dolma: 一个包含三万亿标记的开放语料库,用于语言模型预训练研究
释放 Dolma,这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包,以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节 - MambaByte: 无需令牌的选择性状态空间模型
基于字节的 MambaByte 模型是一种无需标记的语言模型,它在计算效率方面表现出色,优于其他基于字节的模型,并且可以超过现有的基于子词的模型,因此可用于无需标记的语言建模。
- 将机器学习与量子张量网络相结合
本文研究了张量网络在语言建模中的应用,通过对模拟 Motzkin 自旋链的问题进行抽象,发现张量模型具有接近完美的分类能力,并在训练样本减少时保持稳定的性能水平。
- 通用句法结构:为多种自然语言建模句法
我们旨在解释人脑如何将单词连接起来形成句子,通过引入一种新颖的模型来建模句法表示,可能显示出所有自然语言的普遍句法结构的存在,从而提供人类大脑中语言工作方式的基本理解,同时为语言学、心理学和认知科学的理论提供一些见解。我们研究了普遍句法结构 - 利用上下文目标属性进行目标情感分类
利用 PTLM 的语言建模能力来生成与评价语境相关的目标属性的新观点以及采用异构信息图形式的网络对属性信息、句法信息和语境信息进行建模的模型在三个基准数据集上取得了先进的性能。
- AAAI缓存变形器:利用可微记忆缓存改进变形器
引入一种名为 Cached Transformer 的新型 Transformer 模型,采用门控循环缓存(GRC)注意力扩展了自注意机制,实现可微分的令牌记忆缓存。GRC 注意力使得可以关注过去和当前的令牌,增大了注意力的感受野,可用于探 - 通过正交内存实现线性关注
通过使用正交内存(LAVO),我们提出了线性注意力方法的一种改进,通过正交分解将上下文压缩为固定大小的正交内存,同时最小化上下文中的冗余,并通过嵌入相对位置编码来改善外推能力。实验证明,LAVO 极大地提高了因果语言模型的效率,并在最佳外推 - 基于 SpiNNaker 2 神经形态芯片的语言建模
这项研究实现了首个基于神经形态学设备的语言模型,在 SpiNNaker 2 芯片上基于一个名为 EGRU 的最新事件驱动架构。该实现标志着神经形态学语言模型首次能与 LSTM 相媲美,为将任务性能提升到大型语言模型水平奠定了基础。
- SwitchHead:混合专家注意力加速变压器
SwitchHead 是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线 Transformers 相同参数预算的语言建模性能,进而获得了墙钟速度的提升。
- 硬件高效训练的门控线性注意力变换器
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
- EMNLP在上下文中适应:通过上下文中学习的检索增强域适应
通过无监督的领域自适应方法以及在上下文学习环境下的查询元素子集检索策略,我们研究了适应语言模型从源领域到目标领域的问题,以学习目标领域分布并通过语言建模实现任务信号的适应,从而在情感分析和命名实体识别任务中实现了显著的性能提升。
- Tamil-Llama:基于 Llama 2 的新泰米尔语言模型
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行 - 注视引导的循环神经网络:较长的注视,更多的计算
通过固定点引导的并行 RNN 或层,将机器学习模型使其更像人类阅读,并通过语言建模和情感分析任务的实验来测试其有效性,从而提供了经验验证此直觉的证据。我们的模型在语言建模任务上表现出良好的性能,明显优于基准模型,并发现神经网络预测的固定点持 - ALT: 语言和 CTR 模型之间的细粒度对齐性,用于点击率预测
本文提出了一种新颖的基于 Fine-grained Feature-level Alignment 的语言模型和点击率(CTR)预测模型,通过协同建模和语义知识提取,实现了文本模态和表格模态之间的特征交互和对齐,取得了比现有方法更好的实验结