performance differences | BriefGPT

关键词performance differences

搜索结果 - 8

EnviroExam: 大型语言模型的环境科学知识基准测试
在环境科学领域，我们提出了 EnviroExam，这是一种综合评估方法，旨在评估大型语言模型在环境科学领域的知识。通过在 31 个开源大型语言模型上进行 0 次和 5 次测试，EnviroExam 揭示了这些模型在环境科学领域中的性能差异，
PDF2 months ago
量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式
大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
PDF9 months ago
评估大型语言模型的推理能力
大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了
PDF10 months ago
MMFood-500 Cap：用于评估视觉语言模型的细粒度食物标题基准
我们综合研究了流行的视觉 - 语言模型（VLMs）在特定领域，即食品领域中的能力，并发现它们在特定领域的表现不如在一般领域中的表现好，同时揭示了 VLMs 在处理不同地理区域的食物方面存在严重偏见。
PDFa year ago
差分隐私对群体不平等性缓解的影响
本文探讨差分隐私对公平性的影响，并评估隐私保护机制对公平性的影响。结果发现，差分隐私在基线设置下会增加组间性能差异，但在鲁棒设置下会减少组间性能差异，解释了这是由于差分隐私被重新解释为规范化的结果。
PDF2 years ago
EMNLP章鱼的世界：报道偏见如何影响语言模型对颜色的感知
本文研究了文本预训练的固有局限性，提出了报告偏差作为该限制的原因之一，并分析了多模态训练在解决该问题方面的效果。研究使用了 Color Dataset 并比较了文本中的颜色分布，语言模型捕获的分布以及人类感知中的颜色分布，结果表明文本中的
PDF3 years ago
比较单个性能得分并不能得出关于机器学习方法的结论
本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。
PDF6 years ago
卷积字典学习：一次比较评估和新算法
本文介绍卷积稀疏表示作为一种稀疏表示的形式，其字典结构相当于一组线性滤波器的卷积。虽然最近已经开发出有效的算法来解决卷积稀疏编码问题，但相应的字典学习问题更加具有挑战性。此外，虽然已经提出了许多不同的方法，但缺乏彼此之间的彻底比较，使得很难
PDF7 years ago