misalignment | BriefGPT - AI 论文速递

关键词misalignment

搜索结果 - 32

模型合并与安全对齐：一枚坏模型败坏一群模型
将多个专家语言模型合并成单一多功能模型的成本效益技术中，当前方法经常忽视了合并过程中安全对齐的重要性，导致模型高度不对齐。本研究调查了模型合并对对齐的影响，评估了几种常见的模型合并技术，证明现有方法不仅传递了领域专业知识，还传播了错对齐。我
PDF12 days ago
CVPRCVPR2024 基础 Few-Shot 目标检测挑战的解决方案
本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM
PDF14 days ago
多模态学习：通过术中 CBCT 和术前 CT 改进分割
通过融合预操作 CT 和模拟的术中 CBCT，研究了术中图像质量和错位对分割性能的影响，结果显示融合图像能够改善分割性能，即使显著错位的预操作数据也有潜力提高分割性能。
PDF15 days ago
FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型
通过 Fine-Grained 人工智能反馈以及基于强化学习将多模态对齐，解决了 Large Vision-Language Models 中的幻觉问题，提高了模型的性能。
PDF3 months ago
CoMat: 文本到图像扩散模型与图像到文本概念匹配的对齐
提出了 CoMat，一种将图像到文本概念匹配机制与端到端扩散模型微调策略相结合的方法，通过利用图像字幕模型衡量图像到文本的对齐性并指导扩散模型重新访问忽略的标记，解决了文本提示与图像之间的对齐不足问题。在两个文本到图像对齐基准测试中，CoM
PDF3 months ago
与人类判断相一致：大型语言模型评估者中的成对优先关系的作用
使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。
PDF3 months ago
基于空间级联聚类和加权记忆的无监督人员再识别
最近的无监督人员再识别（re-ID）方法通过利用细粒度的局部上下文实现了较高的性能。然而，大多数基于部分的方法通过水平分割来获得局部上下文，由于各种人体姿势导致了配准的问题。此外，部分特征中语义信息的不配准限制了度量学习的使用，从而影响了基
PDF4 months ago
免疫有害微调攻击
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。
PDF4 months ago
研究大型语言模型的文化一致性
通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物
PDF4 months ago
语言模型反映哪些人的情绪和道德情感？
语言模型（LMs）代表某些社会群体的观点较好，可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点，现有研究主要关注定位对齐，即模型模拟不同群体（如自由派或保守派）的观点和立场的接近程度，而人类交流还包
PDF5 months ago
大型视觉语言模型中的幻觉调查
通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们
PDF5 months ago
解释性概念瓶颈以对齐强化学习智能体
深度强化学习中，奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题，我们引入了连续概念瓶颈代理（SCoBots），通过整合连续的概念瓶颈层使整个决策过程变得透明，使得领域专家能够理解和纠正模
PDF6 months ago
在线平台中概率反馈能推动用户影响吗？
内容推荐系统的负面用户影响通常被解释为平台目标与用户福利不一致。然而，本文揭示了即使平台目标与用户福利完全一致，学习算法也可能引起用户的负面影响。用户反馈速率的差异可能影响学习算法与不同内容的互动，进而无意中推广具有特定属性的内容。我们的研
PDF6 months ago
城市建筑标签不对齐的知识传递方法之比较研究
通过对三种知识转移方法的系统比较研究，本研究表明，SDA 是解决对齐问题最有效的方法，而 KD 和 DML 可以在不显著降低性能的情况下有效压缩网络规模。
PDF8 months ago
AI 通过不准确的追求权力存在潜在风险的证据回顾
人工智能的快速发展引发了专家、决策者和世界领袖的担忧，关于越来越先进的人工智能系统可能造成的存在风险，这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定，关于存在极端的不
PDF8 months ago
诊断灾难：连续学习中的大部分准确性损失可归因于读出失调
在这篇论文中，我们研究了导致人工神经网络在变化的数据分布上训练后旧任务性能迅速下降的表征性变化，并确定了解释这一现象的三个不同过程。最主要的成分是隐藏表征与输出层之间的不对齐，这种不对齐是由于在其他任务上的学习造成的，它导致内部表征发生位移
PDF9 months ago
认知科学与人工智能中的异议的方面：解析分化与不一致
人工智能代理和人类之间以及代理之间的不同意见的管理需要进一步加深对不同意见本质的理解，其中包括对代理对物体评估的差异和代理对物体表征的差异所引发的不同意见的研究。
PDF9 months ago
利用 N-Skipgram 和位置一元匹配进行无监督语音识别
这篇论文介绍了一种新颖的 ASR 系统 ESPUM，通过利用低阶 N-skipgrams（最高 N=3）和从小批量样本中收集到的位置单字统计数据，克服了无监督语音识别系统训练中的 GAN 相关不稳定性、语音和文本的不匹配以及显著的内存需求。
PDF9 months ago
绝对主义人工智能
通过使用绝对限制来训练人工智能系统，可以在原则上在许多人工智能安全问题上取得重大进展。
PDFa year ago
面向受损数据的三维物体检测稳健传感器融合步骤
本研究提出了一种新的融合步骤来解决数据损坏问题，从而使得 3D 物体检测的多模态传感器融合更加稳健。经过大量实验证明，我们的方法在正常数据上与最先进的方法相当，并在不对齐数据上表现出更好的效果。
PDFa year ago