稀疏文本生成

Apr, 2020

Sparse Text Generation

Pedro Henrique Martins, Zita Marinho, André F. T. Martins

TL;DR本文提出使用 entmax 转换来训练和采样自然稀疏的语言模型，从而避免训练和测试之间的差异，以达到更好的性能和更接近人类文本的 n-gram 多样性，同时提出了三个度量标准来比较稀疏或截断的分布，并通过故事和对话生成等应用展示了该方法的有效性。

Abstract

Current state-of-the-art text generators build on powerful language models such as GPT-2, achieving impressive performance. However, to avoid degenerate text, they require sampling from a modified softmax, via te

text generation entmax transformation sampling techniques language models performance

发现论文，激发创造

稀疏 Seq2Seq 搜索空间的平滑和缩小

本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力，同时该模型也可以处理诸如跨语言形态学和机器翻译等任务，并且引入了一种更广泛的正则化技术 Fenchel-Young losses。

Mar, 2021

稀疏序列到序列模型

提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

May, 2019

截断采样作为语言模型丢失平滑的方法

通过混合真实分布和平滑分布的方式，该论文提出了一个改进的 top-p 或 top-k 算法来缩短神经语言模型中的文本，并介绍了一种称为 eta-sampling 的更好的算法，可以更好地生成符合人类预期的自然语言文本。

Oct, 2022

加速 Entmax

本文研究了针对语言处理中神经网络常用的 softmax 在文本生成中出现的问题，提出了一种替代 alpha-entmax 的方法，并在机器翻译任务中取得了与 alpha-entmax 相当或更好的性能。

Nov, 2021

解决神经文本退化的疑难案例

通过理论证明截断采样方法能保证所有抽样的 Token 具有非零真实概率，同时基于模型中的 softmax 限制证明某些 Token 具有非零真实概率，我们开发了一种实验性的截断策略，并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的方法的性能，这些理论发现和试验结果推动了更具表现力的采样算法以展现大型语言模型的生成能力。

Oct, 2023

高温下的创造力与连贯性的平衡：最小 P 采样

提出了一种动态截断采样方法 min-$p$，通过在生成文本时根据候选词的概率来建立最小基础百分比阈值来平衡自洽性和创造力，实验表明 min-$p$ 在高温度下提高了生成文本的一致性和质量，同时与 top-$p$ 和其他采样方法相比，还能产生更具创意和多样性的文本输出。

Jul, 2024

语言 GANs 的不足

本篇论文研究自然语言生成中存在的曝光偏差问题，指出了评估基准的不足之处，并证明在整个质量和多样性空间中，最大似然估计（Maximum-Likelihood）模型在质量和多样性方面表现优于对抗性变体，且温度调整提供了更好的质量 / 多样性权衡。

Nov, 2018

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

传统修剪方法在大型语言模型中的使用具有挑战性，因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计，即 E-Sparse，以提高大型语言模型的 N:M 稀疏性准确性，并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM，并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明，E-Sparse 可以显著加速模型推理（高达 1.53 倍），并实现显著的内存节省（高达 43.52%），在可接受的准确性损失范围内。

Oct, 2023

SparseGPT：一次修剪即可在大型语言模型上进行精准压缩

本文提出了一种名为 SparseGPT 的新型剪枝方法，能够高效、准确地应用于海量的 GPT 模型，实现一次性稀疏化至少 50％，并在几乎不影响困惑度的情况下，将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60％。

Jan, 2023

学习稀疏原型生成文本

本研究提出了一种新的生成模型，它针对原型驱动的文本生成实现自动学习稀疏原型支持集，大大减小了测试时的内存使用和速度，并且能够捕捉语义和语法的不同粒度，实现指定原型的生成。

Jun, 2020