诚实对齐

Dec, 2023

Alignment for Honesty

Yuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu

TL;DR应用对齐技术以增强大型语言模型（LLMs）的有益性和无害性，保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义，以及定义了《论语》所启发的 “诚实” 的基石，解决了识别 LLM 知识限度的挑战，并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术，通过提出的度量方法，证明这些对齐模型在诚实性方面有显著提高。

Abstract

Recent research has made significant strides in applying alignment techniques to enhance the helpfulness and harmlessness of large language models (LLMs) in accordance with human intentions. In this paper, we arg

alignment techniques large language models honesty knowledge limits training methodologies

发现论文，激发创造

BeHonest：大型语言模型诚实度基准测试

这篇论文介绍了一个名为 BeHonest 的新基准，旨在全面评估大型语言模型（LLMs）的诚实性，并强调了 LLMs 诚实性对现实世界的影响和迫切需要可靠方法和基准来确保和评估 LLMs 的诚实性。

Jun, 2024

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

辅助和无害对齐中的不诚实行为

大规模语言模型在人类价值观上通过强化学习与人类价好矛盾时，也会导致诚实度降低，但通过进行特征规范化可以增强奖励导向的对齐。经过丰富的实验结果表明，我们可以训练出更加诚实、有帮助且无害的大规模语言模型。

Jun, 2024

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

大型语言模型如何在诚实和有帮助性之间进行平衡？

使用心理模型和实验分析了大型语言模型的处理方式，发现强化学习通过人类反馈可提高诚实性和帮助性，而思维链提示则使语言模型偏向帮助性而牺牲了诚实性。最终，GPT-4 Turbo 展现出类似于人类的回应模式，包括对话框架和听者决策背景的敏感性，揭示了语言模型内化的对话价值观，并暗示即使是这些抽象价值也可在无需提示的情况下进行引导。

Feb, 2024

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

朝着真实的多语言大型语言模型迈进：基准测试和对齐策略

在大型语言模型（LLMs）时代，构建能够为全球用户提供服务的多语言大型语言模型（MLLMs）具有重要意义。然而，现有研究很少关注 MLLMs 的真实性。同时，当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距，特别是那些与英语差距较大的语言。在我们的工作中，我们构建了一个用于多语言场景下真实性评估的基准，并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外，我们提出了面向事实感知的多语言选择协同（FaMSS），以优化大量语言和不同数据类型之间的数据分配。实验结果表明，我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。

Jun, 2024