关键词autoregressive large language models
搜索结果 - 7
- 扩散语言建模的承诺、展望与挑战
现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而,它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法,并表明它是自回归生成的有希望的替代方案,但也存在一些不足之处 - ICML当线性注意力遇上自回归解码:朝着更有效和高效的线性化大型语言模型
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
- FFN-SkipLLM:自适应前馈跳过的自回归解码中的隐藏宝石
通过使用 FFN-SkipLLM 方法,可以减少 FFN 块数量来提高自回归解码速度,并在知识密集型生成任务上保持较好性能。
- 大型语言模型的时间箭头
我们通过时间方向性的角度研究自回归大规模语言模型的概率建模,经验性发现这类模型在自然语言建模方面存在时间上的非对称性:在预测下一个标记和预测上一个标记时的平均对数困惑度存在差异。这种差异在多个模式(语言、模型大小、训练时间等)上既微妙又非常 - 大型语言模型中的不一致概率判断
使用概率恒等式和重复判断来评估自回归大型语言模型的概率判断的连贯性,结果显示这些模型产生的判断通常是不连贯的,并显示出与概率理论规则相悖的人类式系统偏差;此外,当被提示对同一事件进行判断时,自回归大型语言模型产生的概率判断的均值 - 方差关 - 自回归大型语言模型中的提示
自回归大语言模型已经改变了自然语言处理领域的格局。基于预训练和提示范式的方法已经取代了常规的预训练和微调方法用于许多下游自然语言处理任务。本文讨论了已经在自回归大语言模型上使用的各种提示技术,提供了一个基于这个分类体系的简明调研,并且确定了 - 大型语言模型中的难以计算的推断摊销
通过使用归约化贝叶斯推理方法从难以通过条件概率分布采样的后验分布中提取样本,我们展示了这种分布匹配模型在 LLM 微调中作为最大似然训练和奖励最大化策略优化的有效替代方法,进而实现了对多步骤推理和工具使用任务的数据高效适应。