关键词large vision and language models
搜索结果 - 2
- 魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准
本文介绍了一个名为 MERLIM 的多模式评估基准,用于评估 IT-LVLM 在基本计算机视觉任务中的表现,发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响, - 关于组间剪辑在差分隐私优化中的准确性和高效性
在本研究中,我们深入研究了差分隐私优化中关键组成部分之一的逐样本梯度剪裁方式,发现不同的剪裁方式具有相同的时间复杂度,但存在准确性 - 内存消耗的权衡关系:粗粒度全部层剪裁通常提供最佳准确性,但相比于细粒度的分组剪裁,会带来更高的内存开销。