- 大语言模型的单次安全对准
将安全限制与人类偏好对齐的计算方法,通过预优化光滑凸函数,消除了原始 - 对偶策略迭代的繁琐过程,大大降低了计算负担和提高了训练稳定性。
- 无调谐扩散模型的直接噪声优化对齐
本论文主要关注扩散模型与连续奖励函数的对齐问题,提出了一种名为直接噪声优化(DNO)的新型对齐方法,通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布,以使生成的样本最大化目标奖励函数。实验结果表明,DNO 方法在人类反馈数据上训练 - 基于概率先验信息集成的多模态对象检测
通过将上下文二进制信息转化为概率图,并提出一种早期融合结构,在 DOTA 数据集上进行了广泛实验证实,本文研究了仅有一种模态包含目标物体且其他模态提供关键上下文信息的多模式目标检测中的对齐问题。
- 了解您的参考模型以实现良好对齐
通过引入 Trust Region DPO 方法,我们提出了一种新的对齐方法来改善模型的质量,通过在训练过程中更新参考策略,我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。
- SoFA: 通过优先规则遵循进行实时隐蔽对齐
该论文引入了一种新的对齐范式,即优先规则遵循,通过将规则定义为每个对话中的主要控制机制,并将其置于用户指令之上,来解决大语言模型(LLMs)中的对齐问题。作者提出了 PriorityDistill 方法,通过从 LLM 模拟中提取优先遵循信 - 大型语言模型的教学对齐
介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs),它作为脚手架工具将复杂问题分解为可管理的子问题,并通过反馈和提示引导学生寻找最终答案。研究表明,通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越,同时在线反馈 - CDEval:评估大型语言模型文化维度的基准
利用 GPT-4 自动生成并通过人工验证的方式,我们构建了一个评估 LLMs 文化维度的新基准,CDEval。通过研究主流 LLMs 的文化方面,我们得出了一些有趣的结论,强调了在 LLM 开发中整合文化考量的重要性,特别是在多元文化环境中 - 黑盒提示优化:无需模型训练对齐大型语言模型
通过黑盒提示优化(BPO)进行对齐,使得大型语言模型(LLMs)更好地遵循用户指令,以最佳方式实现用户意图,而无需更新 LLMs 的参数,并且 BPO 对齐的 ChatGPT 在胜率上比原始版本提高了 22%,GPT-4 提高了 10%。
- 上下文中的对齐问题
当前的大型语言模型仍然容易受到对抗攻击,使其表现出不安全的行为,这一基本问题不仅对当前的人工智能系统尚未解决,而且在不严重削弱其能力的情况下可能难以解决,同时也对未来和更具能力的人工智能系统的安全性提出了担忧。
- 系统化的人工智能方法论:解决对齐、能源和人工智能大挑战
这篇论文主要讨论了人工智能面临的三个重要挑战:能源问题、对齐问题和从窄人工智能到通用人工智能的飞跃。作者提出了一个系统性的人工智能方法来解决这些挑战,并强调系统设计在克服这些挑战中的重要性。
- AI 系统的直接和社会目标是与谁协调的?
本文主要讨论随着人工智能的广泛应用,如何确保人工智能系统追求我们想要其追求的目标,区分直接对齐问题和社会对齐问题,并分析了不同解决方案。其中,直接对齐问题解决方法主要集中在更强大的实现;而社会对齐问题通常由于个人和群体层面目标之间的冲突而产 - GPT-3 中的价值冲突:机器中的鬼魂带有美国口音
本文研究大型语言模型中的对齐问题,特别考虑到世界上人类价值的多样性和冲突,探讨了语言和文化价值的共同创造对大型语言模型的影响,比较了 GPT-3 的训练数据与世界语言和互联网接入人口的差异,并对代表多种语言和国家的具有价值特征的文本进行了压 - ACL通过子部分对齐实现鲁棒的问答
提出一种将问题回答建模为一种对齐问题的结构支持向量机方法,通过将问题和上下文分解成基于语义角色的单元,并将问题与上下文的子图进行对齐以找到答案,该模型可用于跨领域问题回答,且通过对齐得分派生出的限制使模型更加鲁棒。
- WSDM动态词向量用于演化中的语义发现
该研究通过发展一种动态统计模型学习时态感知的词向量表示,并实现了 “对齐问题” 的解决,从而可以可靠地捕捉时间上的语言演变,并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。