无人工指导的有限样本LLM自校准
研究提出了SELF-ALIGN方法,利用少量人工监督和结合原理驱动推理和LLM的生成能力,实现AI助手的自我对齐,减少人工监督的依赖,获得更好的性能,开发了Dromedary AI助手。
May, 2023
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
通过对基于SFT和RLHF的对齐方法的分析,我们发现通过ICL方法URIAL,使得基于语言模型的对齐方法不再需要SFT或RLHF来实现高效对齐,并且实验证明URIAL的性能与基于SFT或SFT+RLHF的方法相媲美甚至更优。这些结果表明,对于未来的LLM研究来说,更深入的对齐分析和理论理解至关重要。
Dec, 2023
通过使用合成数据训练可调整的模型,我们提出了一种解耦大型语言模型和对齐过程的方法,以确保其在大多数应用中的安全性和实用性,并减少对齐对性能的潜在负面影响。我们通过训练一个“道德”对齐器模型并从实证角度验证其有效性来阐明我们的方法。
Mar, 2024
通过使用编码-解码原理,我们引入了CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM相对于当前技术水平具有显著的效果。
Apr, 2024
使用无需标注的注解方法,Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练,通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估,我们的方法在实现显著对齐方面表现出很高的效果。
Apr, 2024
通过系统回顾最近出现的自动对齐方法,本文旨在探索如何在大型语言模型的能力超越人类之后实现有效、可扩展的自动对齐。我们将现有的自动对齐方法分为四个主要类别,并讨论每个类别的当前状态和潜在发展。此外,我们探讨了使自动对齐技术可行和有效的基本因素,从对齐的基本作用角度阐述了自动对齐的潜在机制。
Jun, 2024
通过提高弱监督信号的可靠性,我们的方法有效地识别了弱标签的质量,并显著提高了弱到强泛化能力,降低了噪声监督的误差传播,增强了大型语言模型的准确性和可靠性。
Jun, 2024
本研究针对大型语言模型(LLM)在对齐方面的挑战,提出了一种利用弱LLM的创新方法。实验结果显示,弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈,揭示了模型规模对反馈有效性影响的最小化,从而为可扩展和可持续的对齐策略提供了新视角。
Sep, 2024