- VLBiasBench:大型视觉语言模型偏见评估综合基准测评
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
- OLMES:语言模型评估的标准
AI 领域中,评估语言模型的性能往往会因为任务评估方法的微小改变导致结果巨大的变化,由于缺乏共同的标准设置,不同模型在相同任务上的评估方法不同,对模型性能最佳的声称难以重现。本论文提出了 OLMES,一种完全记录且实用的、可以重现 LLM - OCDB:重新审视因果推断的全面基准和评估框架
基于真实数据,我们提出了一个灵活的评估框架,在评估因果结构和因果效应的差异方面具有关键属性,可以提高大型语言模型的可解释性。我们引入了基于真实数据的开放式因果发现基准(OCDB),以促进公平比较和算法优化。实验结果显示,现有算法在真实数据上 - ACL透过文本蕴含准确而细致地评估开放问题回答
我们提出研究答案的蕴含关系,以识别更具信息量和更一般化的系统答案,从而更接近人类判断,无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数,实现对答案正确性的细致排序,其 AUC 比目前的方法更高。
- Prometheus 2:一个专门用于评估其他语言模型的开源语言模型
通过引入更强大的评估语言模型 Prometheus 2,我们解决了存在于开源评估语言模型中的问题,并达到了与人类和专有语言模型评价最高一致性和相似性的结果。
- 用多元模型评估 LLM 生成:将法官替换为陪审团
使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。
- 一个以用户为中心的评估大型语言模型的基准
我们提出了从用户角度对大型语言模型进行基准测试,旨在更好地反映实际用户需求,并且我们还构建了用户报告场景数据集以及对 10 个语言模型服务在满足用户需求方面的基准测试。
- LLM 亲境召回取决于提示
通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能,我们的研究表明模型的成功检索能力不仅取决于提示内容,而且还可能受到训练数据中的偏见的影响。相反,通过对模型架构、训练策略或微调进行调整可以提高性能 - 政治方位图还是旋转箭头?朝着更有意义的大型语言模型价值观与观点评估
通过对多个选择性调查和问卷调查进行评估,很多最近的工作旨在评估大型语言模型(LLMs)中的价值观和观点。然而,实际应用中的真实关注与当前评估方法的人为性质形成了鲜明的对比。本文挑战了现有基于约束的 LLMs 价值观和观点评估范式,并探索更真 - 评估 LLMs 中强化遗忘的八种方法
通过综合测试现有评估方法,我们对 Eldan and Russinovich(2023)的 “Who's Harry Potter” 模型进行了严格评估,发现它在 “熟悉度” 度量下表现良好,可靠地提取大量超越基准的知识,并与原始模型在 H - HD-Eval: 通过分层准则分解对齐大型语言模型评估器
通过将任务分解为更细粒度的评估标准,然后根据人类偏好进行聚合和修剪,HD-Eval 框架提供了一种改进 LLM 评估器对人类喜好的对齐的方法,并在多个层次上全面捕捉自然语言的方面。
- LLM 会话安全的攻击、防御和评估:一项调研
现在普遍存在大型语言模型在对话应用中的应用。然而,它们被滥用来生成有害回复的风险引起了严重的社会关注,并引发了关于大型语言模型对话安全的最新研究。因此,在这项调查中,我们提供了最近研究的综述,涵盖了大型语言模型对话安全的三个关键方面:攻击、 - 分析基于视觉条件的语言模型的设计空间:棱镜式 VLMs
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
- 评估模型解释在模型开发中的效用
通过用户研究,本研究评估了可解释人工智能在实际场景中对人类决策的改进效果,结果发现虽然解释有助于用户更准确地描述模型,但对于模型选择和反事实模拟这两个任务,并没有找到使用任何显著改进的证据,这表明对基于显著性的解释的实用性和可能的误解需要谨 - 语义分割时代的损失函数:调查与展望
本综述系统地评估了用于图像分割的 25 种损失函数,并提出了分类法和评估方法,以帮助研究人员找到适用于其应用的最佳损失函数。对医疗和自然图像数据集进行了中立评估,并指出了当前挑战和未来研究机会。
- 模型评估和自动可解释性的鲁棒性探索
通过对语言模型进行评估,我们发现其在不同数据集中,包括新的虚假评估中,对评估注入的改变非常敏感。类似的注入也可用于自动的解释性框架,以产生误导性的模型编写解释。这些结果激发了进一步的研究,并应该警告我们不要对评估和自动解释过度信任。
- 自然语言处理健壮性中的胜利回声间传来的疑虑
NLP 中的鲁棒性问题仍未解决,对模型鲁棒性的评估方法也需要重新评估。
- 融合评估器与 LLMs:Fusion-Eval
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
- 利用概率隐私保护逆向深度人脸嵌入
通过评估非可逆性要求的满足程度以及面部嵌入提取器的漏洞评估,本文研究了声称提供软生物特征隐私保护的方法以及隐私保护中使用的转换复杂性,实验结果表明,受保护的面部嵌入可以在达到约 98% 的精度时重构。
- 大型语言模型在人工智能通用智能方面的缺失要素:脑中的容器
我们首先综述了对大型语言模型(LLMs)的现有评估,包括标准化测试和面向能力的基准测试。然后,我们明确了当前评估方法存在的几个问题,倾向于夸大 LLMs 的能力。我们进一步阐述了人工通用智能应该超越 LLMs 能力的几个特征。我们提出了通用