本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价,并提出了二元评价指标:是否精确重构 (ERE) 和语义重构有效性 (SRE),结果表明 GPT-4 可能有效地压缩和重构文本,并保留原始文本的语义要素。
Apr, 2023
提出了一种名为 GenCo 的零样本文本分类方法,利用 GPT 的强大生成能力辅助训练更小、更适应和高效的句子编码器分类器,包括两种方式:一是为每个输入实例生成多个增广文本,提高语义嵌入和标签的映射;二是在自训练期间有条件地生成增广文本,使得生成过程适应目标空间中的决策边界。实验证明,即使只有有限的领域内文本数据,GenCo 也优于以前的最先进方法。
本研究使用 Kronecker 分解压缩 GPT-22 模型的线性映射,并使用该技术训练得到一种新型的神经语言模型 KnGPT2,该模型在经过有效预训练后,可在具有相同参数数量的情况下,优于现有的 DistilGPT2 模型,在语言建模和通用语言理解评估基准任务上均取得了显著的成绩。
Oct, 2021
本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法,并探讨了构建高效、小型模型的重要性以及相关研究成果。
Aug, 2020
本研究提出了 VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1%,0.5%和 1%的训练,结果表明,我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8%,在 Conceptual Captions 上高达 5.4%,并在医学报告生成数据集 IU X-ray 上取得了最新的结果。
Feb, 2021
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
通过 attention 机制,我们提出了一种新的信息变换学习熵模型,能更好地处理图像压缩的全局和局部依赖关系,实验证明该模型取得了优于现有技术的率失真性能,并且没有二次计算复杂度问题。
Dec, 2021
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
Mar, 2024