- OPT-Tree:具有自适应草稿树结构的猜测解码
OPT-Tree 算法通过构建自适应和可扩展的缓冲树结构,实现了一步生成多个标记,从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构,与自回归解码相比,实现了最高 3.2 倍的加速比。
- 嵌入式表示应该嵌入什么?自回归模型表示潜在的生成分布
通过将自回归预测目标与构建预测充分统计量的思想联系起来,我们确定了三种情况下嵌入的最佳内容:独立同分布数据、潜在状态模型和离散假设空间,并进行实证研究表明 Transformers 编码了这三种潜在生成分布,并在这些情况下表现良好。
- 大型语言模型中的加速生成技术综述
这篇论文综述了大型语言模型中加速文本生成的关键技术,包括推测解码、提前退出机制和非自回归方法,并对它们的原理、优势、限制和最新进展进行了讨论,旨在为自然语言处理领域的未来研究方向提供指导。
- 走向快速推理:探索与改进分块并行草稿
通过分析和改进块并行解码草稿,提高语言模型的推理速度和验证前缀长度。
- 自回归语言模型的知识蒸馏再探讨
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多 + 3.04%)。更重要的是,ATKD 能有效改善学生 - 通过基于内容的控制,进行可定向的长期音乐音频生成和编辑
可控音乐生成对于人工智能与人类共创音乐至关重要。大型语言模型在生成高质量音乐方面表现出了潜力,但其自回归生成的特性限制了其在音乐编辑任务中的实用性。为了弥合这一差距,我们引入了一种新颖的参数高效微调(PEFT)方法,通过此方法,自回归语言模 - 思维传播:扩散语言模型中的思维链推理
通过将扩散模型与思维链技术结合,本研究提出了扩散思维模型(DoT),可以通过扩散过程实现推理步骤的时间扩散。实验证明了 DoT 在多位数乘法和小学数学问题中的有效性,并展示了其自我纠正能力和对自一致解码等推理增强技术的受益。这些发现对于理解 - 通过对抗训练学习全局优化的语言结构
提出了一种针对文本的对抗训练策略,通过扰动自回归模型生成的文本来生成负样本,并证明该策略可以显著提高离散能量基模型的生成质量。
- 自回归模型中的轨迹意义表示
我们提出了一种从自回归语言模型中提取含义表示的方法,通过考虑扩展输入文本的所有可能轨迹的分布来实现。这种策略是无提示的,不需要微调,并且适用于任何预训练的自回归模型。此外,与基于向量的表示不同,基于分布的表示还可以通过使用似然函数之间的代数 - 大型语言模型具备地理空间知识吗?
该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力,通过三个实验验证结论,表明合成地理空间知识需要更大规模和更复杂的语言模型,并且对于处理地理空间信息,大型语言模型的潜力和局限性值得研究。
- EMNLP具备快速且稳健的同时并行解码的自回归语言模型提前退出框架
为了解决自回归语言模型的高推理延迟,本研究提出了一个快速而健壮的提前退出 (FREE) 框架,其中包括一个浅层 - 深层模块和一个同步并行解码。通过与先前堆叠的提前退出的令牌进行解码过程的同步,我们的框架实现了更快的推理。此外,由于并行解码 - 高阶 DeepTrails:*Trails 的统一方法
分析人类行为在不同环境中具有优势,理解和描述人类行为有助于改进和优化基础设施和用户界面。本文通过使用一阶马尔可夫链捕捉行为的数学特征,提出使用自回归语言模型分析整个序列的方法,以建模高阶序列依赖,解决现有方法中丧失信息和局限性的问题,并在合 - ACL你需要在可能的 tokenization 上做边缘化吗?
本文研究自回归语言模型中计算字符序列概率的方法,提出了一种基于重要性采样的算法估计边缘概率,并在一系列尖端模型和数据集上进行比较,结果表明在大多数情况下,对边缘化的忽略导致的对数似然差异小于 0.5%,但对于长且复杂的数据则更加明显。
- 基于似然的扩散语言模型
该研究基于算法改进和计算资源扩展来提升扩散式语言模型,成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。
- ACLMixCE: 通过混合正向和反向交叉熵训练自回归语言模型
本文提出使用 MixCE 目标函数来学习自回归语言模型,该目标函数结合了前向交叉熵和反向交叉熵,以更好地生成类人文本。实验表明,在合成数据和真实数据上,使用 MixCE 训练的模型生成的文本比使用传统方法更好。
- 精细调整包容性语言模型的代理 - 环境接口破碎
本文提出了一种新的方法,将预训练的语言模型同时用作策略、奖励函数和转移函数,从而实现了奖励学习和语言模型微调的联合和直接处理,并通过处理认知不确定性来实现高效探索。
- 摘要现状
本文旨在简明扼要地阐述抽象文本摘要现状,强调需采用预训练编码器 - 解码器模型与大型自回归语言模型。此外,讨论了摘要系统评估的挑战和用于零 - shot 摘要的 instruction tuned 模型的潜力,最后概述了如何将摘要系统整合到 - 可控的自回归语言生成
本文提出了一种名为 GeLaTo 的方法,使用可解释的概率模型来强制进行文本生成中的词汇约束,通过使用精简的隐性马尔可夫模型控制 Generative Pre-trained Transformer 2(GPT2)的自回归生成,GeLaTo - 动量解码:以图探索为基础的开放式文本生成
本文提出一种新的解码方法 —— 动量解码,将生成开放式文本视为有向图中的探索过程,同时鼓励语言模型在当前图之外贪心地探索新节点,并允许其通过预定义的抵抗函数降低动量回到现有节点,本方法在三个基准测试中表现出与现有技术相当的性能,且具有明显提 - 神经文本生成需求对比搜索
本研究评估了 16 种主要语言的自回归 LMs 的各向同性,并推出一个校准自回归 LMs 表示的对比学习方案,并基于此方案提出了一种新的解码方法,称为对比搜索,它在各种各样的基准测试中取得了最新的成果,显示出其高度的性能,无需任何附加的训练