大型语言模型中的知识保留:一种模型无关的自解压缩方法
本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价,并提出了二元评价指标:是否精确重构 (ERE) 和语义重构有效性 (SRE),结果表明 GPT-4 可能有效地压缩和重构文本,并保留原始文本的语义要素。
Apr, 2023
研究了在最新的体育事件领域中,通过具有监督的微调方法对大规模语言模型进行知识注入的有效性,并比较了基于令牌和基于事实缩放的不同数据集生成策略,发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收,从而显著提高了与领域外知识相关的问答任务的性能,为领域适应性和提高大规模语言模型响应准确性的潜力做出了贡献。
Mar, 2024
我们介绍了一种称为 Retrieval-based Knowledge Transfer (RetriKT) 的新型压缩模型的方法,通过从大规模预训练语言模型中提取知识,构建一个知识存储库,小规模模型可以从中检索相关信息并利用它进行有效推理,实验证明该方法显著提升了小规模模型的性能。
Oct, 2023
该论文研究自训练范式,其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练,以显著改善多个主题中生成中的虚构问题。此外,选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义,解决了训练 LLMs 过程中的关键限制。我们的研究结果表明,这种方法可以大幅减少对大规模标记数据的依赖,为更可伸缩和经济有效的语言模型训练铺平了道路。
Jun, 2024
通过离线强化学习将大型语言模型(LLM)的分解能力融入紧凑模型,我们利用 LLM 能力的进步提供反馈并生成专门的任务特定数据集来训练紧凑模型,该研究的主要贡献是开发了一个 AI 生成的数据集和建立了基线,强调了紧凑模型在复制复杂问题解决能力方面的潜力。
Feb, 2024
大语言模型(LLMs)在追求超人类表现时,传统上一直依赖于人类注释的数据集和预定义的训练目标 - 这是一种既费时又固有有限的过程。本文提出了一种变革性的方法:自主学习 LLMs,这是一种无监督学习范式,使模型摆脱了人类监督的限制。我们的方法使 LLMs 能够通过与文本的直接交互来自我教育,类似于人类阅读和理解文学。我们的实证结果表明,自主学习在综合实验中表现优于预训练、监督微调以及检索增强方法。这些发现突显了自主学习不仅可以提高 LLMs 训练的效率和效果,还可以为更先进、自主的人工智能系统的发展铺平道路。
Jun, 2024
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
通过自学习的方式,引入 Self-Tuning 学习框架以提高大型语言模型的新知识获取能力,通过加强文档的自监督任务,着重在记忆、理解和自反思三个关键方面,实现从原始文档中高效获取新知识,通过三个数据集进行对知识获取能力的深入分析,实验证明 Self-Tuning 在所有知识获取任务上保持出色的性能,并擅长保留先前的知识。
Jun, 2024
我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御,并减少了产生幻觉等有害内容的排放。
Sep, 2023
使用一种名为 “刻意想象” 的新方法,在大型语言模型(LLM)的条件下有效地取消已学习的文本,并在进行生成任务和自然语言理解(NLU)任务时保留其功能,从而解决 LLM 中私密和敏感数据的挑战。
Feb, 2024