基于 LLM 的边缘计算设备上的时间序列数据分析知识修剪
介绍了大型语言模型(LLMs)的计算成本问题以及知识模型编辑(KME)领域中的最新进展和分类技术,探讨了方法的洞见、优势、限制以及实际应用和挑战,并提出了未来研究方向。
Oct, 2023
本文利用分类法阐述了如何将外部知识融入预训练语言模型(PLMs)中解决其因缺乏外部知识而导致的推理能力不足问题,以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。
Nov, 2022
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
本文提出了一种名为知识解决器(KSL)的范例,通过利用大型语言模型(LLMs)的强大概括能力,教给它们从外部知识库中搜索必要知识,并将检索过程转化为多跳决策序列,增强了 LLMs 的搜索能力,提高了推理过程的可解释性。在三个数据集上的实验证实,我们的方法相对基准模型的表现有很大的提升。
Sep, 2023
本论文提出了 Parametric Knowledge Guiding(PKG)框架,使 LLMs 具有在运行时访问相关知识的能力,从而在适应长尾或特定领域任务方面提高性能,并同时考虑了透明度和数据隐私的问题。
May, 2023
通过使用知识图谱进行实时个性化,文章提出了一种提高大型语言模型用户体验的方法,而不需要修改模型参数,从而改善了计算和内存效率,并保证解释性和个性化性能。
May, 2024
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
使用大型语言模型构建知识链接图,并通过图对齐模块将知识链接图的语义知识转化为基于多元时间序列数据构建的图,以提高图质量,并确保图神经网络在多元时间序列数据的表示学习中具备有效性,并通过大量实验证明了该方法在多元时间序列相关任务中的卓越性能。
Mar, 2024
该研究论文介绍了一种专为大型语言模型(LLMs)设计的机器遗忘方法。通过选择性修剪 LLMs 的方法,根据其相对于整体网络性能对目标能力的重要性,移除能够实现特定行为的神经元。研究发现在 LLMs 中,前馈神经元和注意神经元都是专门用于特定任务的,某些神经元比其他神经元更为重要。
Mar, 2024
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023