BeHonest:大型语言模型诚实度基准测试
应用对齐技术以增强大型语言模型(LLMs)的有益性和无害性,保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义,以及定义了《论语》所启发的 “诚实” 的基石,解决了识别 LLM 知识限度的挑战,并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术,通过提出的度量方法,证明这些对齐模型在诚实性方面有显著提高。
Dec, 2023
这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现,包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明,这些增强方法可以显著提升大语言模型的诚实性和帮助性,有望为开发更可靠的实际应用语言模型奠定基础。
Jun, 2024
使用心理模型和实验分析了大型语言模型的处理方式,发现强化学习通过人类反馈可提高诚实性和帮助性,而思维链提示则使语言模型偏向帮助性而牺牲了诚实性。最终,GPT-4 Turbo 展现出类似于人类的回应模式,包括对话框架和听者决策背景的敏感性,揭示了语言模型内化的对话价值观,并暗示即使是这些抽象价值也可在无需提示的情况下进行引导。
Feb, 2024
大规模语言模型在人类价值观上通过强化学习与人类价好矛盾时,也会导致诚实度降低,但通过进行特征规范化可以增强奖励导向的对齐。经过丰富的实验结果表明,我们可以训练出更加诚实、有帮助且无害的大规模语言模型。
Jun, 2024
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
该论文介绍了一个新颖的基准,旨在衡量和比较大型语言模型的道德推理能力,通过开发针对大型语言模型的道德维度的综合数据集和指标,结合伦理学者的定性洞察力,评估模型性能,并揭示了不同模型的道德推理能力存在显著差异,强调在大型语言模型的开发和评估中考虑道德推理的重要性,并需要进行后续研究来解决暴露在研究中的偏见和局限性。
Jun, 2024
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。
Nov, 2023
通过建立 MultiTrust 综合基准,本研究通过对 21 种现代多模态大型语言模型的广泛实验,揭示了一些之前未开发的可信度问题与风险,强调了多模态性引入的复杂性,并强调提升其可靠性的先进方法的必要性。
Jun, 2024
在大型语言模型(LLMs)时代,构建能够为全球用户提供服务的多语言大型语言模型(MLLMs)具有重要意义。然而,现有研究很少关注 MLLMs 的真实性。同时,当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距,特别是那些与英语差距较大的语言。在我们的工作中,我们构建了一个用于多语言场景下真实性评估的基准,并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外,我们提出了面向事实感知的多语言选择协同(FaMSS),以优化大量语言和不同数据类型之间的数据分配。实验结果表明,我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。
Jun, 2024