alignment algorithms | BriefGPT

关键词alignment algorithms

搜索结果 - 8

SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐
为了减轻大规模视觉模型（LVMs）带来的有害输出的风险，我们引入了 SafeSora 数据集，促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好，并进一步细分为 4 个子维度和 12 个子类别。通过
PDF16 days ago
DeTox: 模型编辑的有毒子空间投影
通过因子分析理论，引入无需调优的对齐替代方案（DeTox），该方案通过从模型的参数空间中检测出有毒子空间，通过投影方式去除检测到的子空间，从而减少模型的有毒性。我们证明了 DeTox 比 DPO 更加高效，并且对噪声数据具有更强的鲁棒性。最
PDFa month ago
EFUF：用于减轻多模态大语言模型中幻觉的高效细粒度遗忘框架
多模式大语言模型 (MLLMs) 在过去几年中引起了越来越多的关注，但它们可能会生成包含图片中不存在的对象的描述，这被称为对象幻觉。为了消除幻觉，已有的方法手动注释带有和不带幻觉的成对响应，然后采用各种对齐算法改进图像和文本之间的对齐能力。
PDF5 months ago
比对算法的机制性理解：以 DPO 和毒性为案例研究
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域，并提出了一种简单的方法来逆转模型的对齐，使其恢复其有毒行为。
PDF6 months ago
从人类反馈中进行吉布斯采样：基于可证明的 KL 约束的 RLHF 框架
研究生成模型与强化学习从人类反馈中的对齐过程的理论框架，考虑了逆 KL 正则化情境赌博机在此方面的应用，通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系，为未来算法设计提供新的工具和见解。
PDF7 months ago
大型模型中的伦理价值一致性解析
大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力，但是随着这些模型越来越广泛地融入日常生活，它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战，调查了现有的人工智能伦理准则，并研究了
PDF8 months ago
群体偏好优化：大型语言模型的少样本对齐
利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理
PDF9 months ago
线性成本下的度量和非度量近似变换
本文提出了一种将大规模非度量差异矩阵转换为近似正半定核矩阵的有效而准确的技术，该技术结合了 Nystroem 逼近、潜在双中心化和特征值修正，并在几个大规模差异数据集上进行了实验。
PDF10 years ago