大语言模型与人类价值观的强弱对齐
本研究提出了A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
通过综合调查现有工作的不同对齐目标并追踪其演变路径,本文揭示了从基本能力到价值取向的目标转变,表明内在人类价值可能是提升大型语言模型对齐目标的关键,进一步讨论了实现此内在价值对齐的挑战,并提供了一系列可用资源以支持未来对大型模型对齐的研究。
Aug, 2023
通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。
Feb, 2024
探讨实现AI系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能AI系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前LLM体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明LLM面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的AI系统的路径。
Mar, 2024
本研究解决了AI系统对齐的复杂挑战,尤其是在多智能体系统和人机团队中。提出了一种通过弱到强泛化的方法来进行模型对齐,该方法通过强模型促进弱模型的改进,进而在解释生成与模型对齐之间架起桥梁。研究结果表明,这种促进性方法不仅提升了模型性能,还提供了模型对齐的深刻见解,并展示了可扩展的AI系统监督潜力。
Sep, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024
本研究针对大型语言模型(LLMs)对人类价值的对齐问题,强调现有方法在实际对齐任务下的不足。作者提出将弱到强的生成扩展至实际对齐任务,并通过实证研究表明这一现象在安全性、毒性和法律推理三项复杂任务中的广泛存在,旨在提高模型输出的质量和对齐性能。
Oct, 2024