LLM 中的低秩知识蒸馏在微电子推理中是否有用?
提出了知识增强推理提炼(KARD)这一新颖的方法,以从外部知识库检索的增强知识 fine-tune 小型 LM,来生成 rationale,并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。
May, 2023
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
本文系统研究了大型语言模型在电子设计自动化领域的应用,分类研究了助理聊天机器人、硬件描述语言和脚本生成,以及硬件描述语言验证与分析三个方面,并强调了未来研究方向,重点关注逻辑综合、物理设计、多模态特征提取和电路对齐等领域。
Dec, 2023
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型,通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体,并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。
Aug, 2023
提出了 EvoKD:演化知識蒸餾方法,利用主動學習的概念提升大型語言模型的數據生成過程,同時改善小型領域模型的任務能力。實驗和分析表明 EvoKD 在不同的自然語言處理任務,如文本分類和命名實體識別方面具有有效性。
Mar, 2024
大型语言模型在生成能力方面表现出色,但当仅依赖其内部知识时,容易出现幻觉,尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案,然而,最近的方法主要强调从非结构化文本语料库进行检索,忽视了底层结构。此外,当前领域存在一个显著的差距,即缺乏对异构知识源(如知识库和文本)上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白,我们精心策划了一个综合数据集,提出了两个独特挑战:(1)需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题,正确回答问题需要从结构化知识源中检索信息;(2)符号化查询(例如用于 Wikidata 的 SPARQL)的生成是一个关键要求,增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建,我们还引入了一种新颖的方法,利用多个检索工具,包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。
Oct, 2023
知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和 KD 之间的相互关系,旨在弥合专有和开源 LLM 之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。
Feb, 2024
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023