model alignment | BriefGPT - AI 论文速递

关键词model alignment

搜索结果 - 12

HelpSteer2: 用于训练最佳奖励模型的开源数据集
通过使用 HelpSteer2 进行训练，我们提出了 SteerLM 2.0 模型对齐方法，能够有效利用我们的奖励模型预测的多属性分数，从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
PDF22 days ago
NeMo-Aligner：高效模型对齐的可扩展工具包
用于大规模语言模型对齐的 NeMo-Aligner 工具包可以高效地扩展到使用数百个 GPU 进行训练，支持 Reinforcement Learning from Human Feedback (RLHF)、Direct Preferen
PDF2 months ago
大型语言模型黑匣子揭秘：整体可解释性的两个视角
通过一种全面解释性的框架，我们提出打开大语言模型的黑匣子，既关注机制可解释性、组件功能和训练动态，又通过隐藏表示进行行为分析，以实现与人类价值相一致的伦理、诚实和可靠推理。
PDF5 months ago
比对算法的机制性理解：以 DPO 和毒性为案例研究
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域，并提出了一种简单的方法来逆转模型的对齐，使其恢复其有毒行为。
PDF6 months ago
通过模型对齐提高对抗性迁移能力
该研究介绍了一种新的模型对齐技术，旨在改善给定源模型生成可转移对抗干扰的能力。通过减小对齐损失来微调源模型的参数，该损失量化了源模型和另一个独立训练的模型（称为观察模型）之间的预测差异。在 ImageNet 数据集上进行的实验表明，与原始源
PDF7 months ago
深度神经网络中的功能激活
深度神经网络的功能结构通过功能神经影像学的技术得到了探测。确定的功能网络可以用于模型对齐、模型输出的调节以及在微调中确定权重。
PDF8 months ago
大规模语言模型理解道德概念
人工智能伦理学和公正性方面的研究已经在调节 LLMs 以反映公平、真实和多样性等价值方面取得了很大进展。然而，我们经常忽略了 LLMs 如何才能达到任何目的的问题。对此，我们提供了一个超越人类的意义的普遍理论，用于解释 LLMs 作为意义代
PDF8 months ago
通过利用生成技术实现对开源 LLMs 的灾难性越狱
通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全
PDF9 months ago
EMNLPSteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF
为了解决强化学习从人类反馈中采集隐式价值观的困难，本研究提出了一种名为 SteerLM 的监督微调方法，使最终用户能够在推理过程中控制生成的回复，从而生成有帮助且高质量的回复，同时保持可定制性。
PDF9 months ago
针对对抗引导的 LLM 安全性认证
我们提出了第一个具有可验证安全保证的消除 - 检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存
PDF10 months ago
自然语言处理模型协作开发
本文提出了 CoDev 框架，通过多用户相互作用，学习每个概念的本地模型和整合原始数据与所有概念的全局模型，从而帮助多个用户操作概念，并在各种情况、任务和模型中避免干扰。
PDFa year ago
EMNLPALFRED 中的语态调整问题：你是否按照我说的在做？
本文章研究 ALFRED 智能家居环境下的任务完成问题，提出对齐文本和视觉输入是成功的关键，通过提出的度量标准 border adherence score (BAS) 检查现有模型的文本和视觉对齐效果，并提出改进的方法，最终实现了模型对齐
PDF3 years ago