No-Skim: 针对基于略读的语言模型的效率鲁棒性评估

Dec, 2023

No-Skim: 针对基于略读的语言模型的效率鲁棒性评估

No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models

Shengyao Zhang, Mi Zhang, Xudong Pan, Min Yang

TL;DR为了降低大型语言模型中的运算成本和能源消耗，本论文提出了一种名为 No-Skim 的通用框架，以帮助基于打桩的语言模型所有者了解和度量其加速方案的强健性，并通过搜索最小且不易察觉的字符级和标记级失真生成对抗性输入，从而增加剩余标记比率，进而增加运算成本和能源消耗。在各种 LLM 架构上对 skimming 加速的脆弱性进行了系统评估，包括 BERT 和 RoBERTa，并在 GLUE 基准测试中找到的失真在最坏情况下能够使 LLM 的运行成本平均增加超过 145％。此外，No-Skim 扩展了评估框架，以用于不同程度的知识。

Abstract

To reduce the computation cost and the energy consumption in large language models (LLM), skimming-based acceleration dynamically drops unimportant tokens of the input sequence progressively along layers of the L

skimming-based acceleration denial-of-service attacks llm architectures adversarial inputs computation cost

发现论文，激发创造

SmartTrim：用于高效视觉语言模型的自适应令牌和参数剪枝

提出了一种智能修剪方法 SmartTrim，通过在模型中集成轻量级修剪模块，对冗余输入和参数进行任务特定修剪，不需要额外的预训练或数据增强，利用跨模态交互信息提供更重要的语义指导，以达到资源受限场景下更好的效率 - 性能平衡。

May, 2023

利用统一的层跳过策略加速大型语言模型的推理

提出了一种统一的层跳过策略，通过选择要跳过的层数来达到目标加速比，从而显著提升了推理性能和实际模型吞吐量。

Apr, 2024

Transkimmer: Transformer 学会按层略过

提出了 Transkimmer architecture，通过添加参数预测器和 reparameterization trick 来实现 Transformer 模型中的 token 跳过，从而提高计算效率，并在 GLUE 基准测试中取得了 10.97x 的平均加速比。

May, 2022

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

通过自去噪平滑提高大型语言模型的稳健性

大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击，而随着模型规模的增加和有限的访问权限，提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法，通过利用 LLMs 的多任务性质，首先去噪噪声输入，然后基于这些去噪版本进行预测，以提高模型对噪声数据的鲁棒性。实验结果表明，我们的方法在防御对抗攻击方面超过了现有方法，在下游任务和用户对齐方面都具有较好的鲁棒性。

Apr, 2024

语言建模中的跳跃学习

在对大规模过参数化的语言模型进行预训练时，我们提出了一种简单的路由机制，用于为不同的标记分配不同数量的计算量，从而显著改善在上下文少样本学习中的性能。这种方法在 24 个自然语言处理任务上进行了全面评估，证明相对于竞争性基准，该方法能够显著提高 1-shot 性能，而仅需额外的轻微成本进行推理。

Nov, 2023

SMART: 对于降低处理费用而言，自动缩减具有准确性保证的语言模型

智能缩放模型在降低自然语言处理任务的推理成本方面具有显著的经济效益，通过在多个模型之间进行权衡，可以实现高质量和低成本的结果。

Mar, 2024

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

机器生成文本检测器在攻击下的鲁棒性压力测试

通过对大规模语言模型、机器生成文本检测器、恶意攻击、鲁棒性和缺陷进行全面研究，我们揭示了现有检测器在不同攻击形式下的脆弱性，并提出了初步的解决方案，以提高其鲁棒性。

Feb, 2024

LLM 的输入扰动问题重新审视：噪声槽填充任务的统一鲁棒性评估框架

使用大型语言模型来评估对话理解能力，在输入扰动场景下提高扰动稳健性表现。

Oct, 2023