LLMs 能通过教学来学习吗?初步研究
通过使用增强学习直接生成基础指令数据集,TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力,减少人为参与需求、模型查询次数以及提高模型隐私保护能力。
Mar, 2024
本文研究了大型语言模型在学生 - 教师框架中作为教师的潜力,探讨了教师在测试时干预学生推理和在特定学生个体上进行个性化解释的方法。
Jun, 2023
通过自学习的方式,引入 Self-Tuning 学习框架以提高大型语言模型的新知识获取能力,通过加强文档的自监督任务,着重在记忆、理解和自反思三个关键方面,实现从原始文档中高效获取新知识,通过三个数据集进行对知识获取能力的深入分析,实验证明 Self-Tuning 在所有知识获取任务上保持出色的性能,并擅长保留先前的知识。
Jun, 2024
这项研究从提示和模型调整的角度探究 LLMs 是否能够从错误中学习和受益,特别是在推理方面,通过引入 CoTErrorSet 基准测试,设计了自我反思提示和错误调整两种方法,证明 LLMs 能够从错误中受益,进而增强其推理能力,并对 LLMs 错误原因进行了深入分析。
Mar, 2024
使用知识传递方法,通过链式思维探究缓解 LLMs 中的过度自信偏差以提高其可靠性,实验评估表明知识传递方法在多个指标上优于传统的 Fine-tuning 和 QA 方法,强调了该方法在提升模型可信度和准确性方面的潜力。
May, 2024
本文提出了一种名为 LGTM 的有效教师培训技术,该技术通过引入蒸馏影响概念来确定每个训练样本对学生泛化能力的影响,通过优先选择可能增强学生泛化能力的样本,在 GLUE 基准测试数据集的 6 项文本分类任务中,LGTM 比其他 10 种常见的知识蒸馏基线表现更好。
May, 2023
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024
大语言模型(LLMs)在追求超人类表现时,传统上一直依赖于人类注释的数据集和预定义的训练目标 - 这是一种既费时又固有有限的过程。本文提出了一种变革性的方法:自主学习 LLMs,这是一种无监督学习范式,使模型摆脱了人类监督的限制。我们的方法使 LLMs 能够通过与文本的直接交互来自我教育,类似于人类阅读和理解文学。我们的实证结果表明,自主学习在综合实验中表现优于预训练、监督微调以及检索增强方法。这些发现突显了自主学习不仅可以提高 LLMs 训练的效率和效果,还可以为更先进、自主的人工智能系统的发展铺平道路。
Jun, 2024
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024