- SPA-VL:用于视觉语言模型的全面安全偏好对齐数据集
提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集,通过在此数据集上使用对齐技术进行训练,可以显著提高模型在无害性和有益性方面的表现,同时保持其核心能力。
- 在指令调优过程中的零样本泛化:相似性和粒度的见解
使用多种度量标准首次证明了指导调整过程中的零样本泛化是一个基于相似性的从训练数据到测试数据的在实例级别上的推理表现,我们的分析有助于推动对指导调整过程中零样本泛化的理解,并为更加对齐的 LLMs 的发展做出贡献。
- LLM 自学与交叉模型蒸馏:拒绝模式对齐的有效方法
通过研究模型对有毒提示的脆弱性和拒绝模式的统计,提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。
- 无参考对齐扩散模型的边缘感知优化
基于最近的文本到图像扩散模型,我们提出一种新颖且内存友好的偏好对齐方法,名为 MaPO,它通过最大化喜欢和不喜欢的图像集之间的可能性间隔以及喜欢图像集的可能性来同时学习一般风格特征和偏好,实验证明 MaPO 在处理参考不匹配时能显著提高对齐 - 创造力已离开聊天窗口:语言模型去偏见的代价
使用强化学习通过人类反馈进行对齐技术(RLHF)在大语言模型的创造力上产生意外后果。
- 从文本分类到生成的贝叶斯弱强弱强
当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展,模拟了人类意见的变异性。 - ACL确保安全和高质量的输出:面向语言模型的指南库方法
为了解决大型语言模型存在的偏见内容生成和隐私问题,研究引入了 Guide-Align 方法,该方法通过安全训练模型识别潜在风险并建立指南和模型库,然后用于新输入的相关指导,以确保安全和高质量输出,还可以通过精调模型来优化对多样输入的适应性和 - 语言模型的解码时间对齐
对减少语言模型中的错误和偏见,与人类偏好进行对齐至关重要。我们提出解码时重新对齐(DeRa)的简单方法,用于探索和评估不同的规则化强度,从而在不重新训练的情况下实现对齐模型的规则化强度的控制,并提高超参数调优的效率。
- 诚实对齐
应用对齐技术以增强大型语言模型(LLMs)的有益性和无害性,保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义,以及定义了《论语》所启发的 “诚实” 的基石,解决了识别 LLM 知识限度的挑战 - 从(生产)语言模型中可扩展地提取训练数据
本文研究了可提取性记忆:对一个机器学习模型进行查询,对其训练数据进行高效提取的训练数据,而不需要事先了解训练数据集。我们表明,对于开源语言模型如 Pythia 或 GPT-Neo,半开放模型如 LLaMA 或 Falcon,以及闭源模型如 - 通用黑盒破解大型语言模型
介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法,通过优化通用对抗提示,发现模型的限制和漏洞,从而破坏模型的对齐性,提供诊断工具以评估和增强大型语言模型与人类意图的一致性。
- 利用词嵌入进行术语对齐
本文提出了一种使用大型口语语言模型将定位与相应字幕对齐的方法,通过使用单一模态,我们的方法计算成本低廉且可与现有的对齐技术相结合,我们在 mdgs 和 bobsl 数据集上定量证明了我们的方法的有效性,词对齐得分可达到 33.22 BLEU - OpenAssistant Conversations -- 大型语言模型对齐的民主化
研究大规模语言模型的发布与使用,利用调整技术进行优化以改善使用性,此文介绍 OpenAssistant Conversations 数据库的发布,使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对 - 个性化在界限内:与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架
本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险,并提出了一个三层次政策框架,以使用户可以体验到个性化对齐的好处,同时在国家和组织范围内控制不安全或不受欢迎的行为。
- 减小词汇量的俄语语言模型知识蒸馏
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。
- 从双曲几何回到词嵌入
在双曲盘中选择随机点并称它们为词表示,但需要通过点间互信息和最新的对齐技术近似确定哪个点对应于感兴趣的人类语言中的哪个词。
- 约束密度匹配与建模:用于跨语言上下文表示对齐
本研究采用密度匹配和密度建模的方法进行多语种词向量的对齐,提出基于 Normalizing Flow 的 Real-NVP 和 GAN-Real-NVP 两种监督学习和无监督学习的密度对齐方法,并通过验证标准来指导训练过程。实验结果表明,我