采用图表示法导航，快速可扩展解码神经语言模型

Jun, 2018

采用图表示法导航，快速可扩展解码神经语言模型

Navigating with Graph Representations for Fast and Scalable Decoding of Neural Language Models

Minjia Zhang, Xiaodong Liu, Wenhan Wang, Jianfeng Gao, Yuxiong He

TL;DR提出一种名为 Fast Graph Decoder (FGD) 的 softmax layer 近似算法，可快速识别给定上下文中最可能出现的 K 个单词，从而减少解码时间并保持接近全 softmax 基线准确率，在神经机器翻译和语言建模任务上证明了其有效性，同时也证明了其理论保证。

Abstract

neural language models (NLMs) have recently gained a renewed interest by achieving state-of-the-art performance across many natural language processing (NLP) tasks. However, NLMs are very computationally demanding largely due to the computational cost of the →

neural language models nlp tasks softmax layer fast graph decoder decoding time

发现论文，激发创造

大词汇神经网络快速 Softmax 推理的筛选学习

在本文中，我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练，通过在各种 NLP 任务中对前 k 个单词进行预测，实现了一个数量级更快的推理速度，例如在德语到英语的机器翻译任务中，与现有先进技术相比，我们实现了 20.4 倍的加速。

Oct, 2018

神经知识语言模型

该研究提出了一种神经知识语言模型 (NKLM)，将知识图提供的符号化知识与 RNN 语言模型相结合，通过预测所生成的单词是否具有潜在事实，从预测事实的描述中复制生成这些与知识相关的单词。实验结果表明，NKLM 显著提高了性能的同时，生成了更少的未知词。

Aug, 2016

自适应骨架图解码

我们提出了骨架图解码（SGD）方法，利用子问题之间的依赖关系支持信息传递，从而在提高质量的同时暴露出解码独立子问题的并行化机会，通过为每个子问题选择合适大小的模型来提高性能并减少质量损失，相对于标准自回归生成和 Skeleton-of-Thought (SoT) 方法，SGD 实现了 1.69 倍加速，同时提高了 51% 的质量。

Feb, 2024

文本神经元表征的可解释性在自然语言处理中的应用

使用 Gumbel Softmax 层的梯度上升法可将可视化神经元的技术扩展到 NLP 任务中，产生优于传统语料搜索的 n-gram 表示。该表示突出了 Imaginet 架构的语言和视觉模型之间的句法意识差异。

Sep, 2018

基于熵指导的外推解码方法提升大型语言模型中的事实准确性

大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力，但存在虚构结果的问题。最近的研究关注于解码技术，通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布，提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择，解耦选择过程与最后一层之间的关系，实验结果显示非常好的性能，并在多个数据集上大幅领先，分析结果表明不同类型的提示需要不同的选择策略。

Apr, 2024

大型语言模型与图神经网络相遇于知识蒸馏

通过使用 LinguGKD 框架，将大型语言模型作为教师模型和图神经网络作为学生模型，通过设计的节点分类提示来调过教师 LLM 的 Hierarchically 学习到的节点特征和学生 GNN 在潜在空间的对齐，并采用层自适应对比学习策略，提高了学生 GNN 的预测准确性和收敛速度，同时提供了更快的推理速度和更少的计算和存储需求。

Feb, 2024

GLaM: 通过邻域分区和生成子图编码对领域知识图的大型语言模型进行微调

我们介绍了一种用于开发图形对齐的语言模型（GLaM）的微调框架，该框架将知识图形转化为具有标签的问题 - 答案对的替代文本表示。我们证明，以特定基于图形的知识为基础的模型具有更强的结构化推理能力。我们的方法利用大型语言模型的生成能力创建数据集，并提出了一种效率高于检索增强型生成方法的替代方法。

Feb, 2024

FlashDecoding++: 在 GPU 上更快的大型语言模型推理

FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎，通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术，相较于 Hugging Face 实现，在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速，在主流 LLMs 上平均实现了 1.37 倍的速度提升。

Nov, 2023

高效的最近邻语言模型

本文探讨了如何提高非参数神经语言模型的效率，实验表明我们的方法能够在保持性能相当的情况下提高 6 倍的推理速度，为以后开发或部署更有效的非参数神经语言模型提供指南。

Sep, 2021

GPU 上高效的 softmax 近似算法

文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Sep, 2016