- 深度学习漏洞检测在真实数据集上的性能再探讨
该研究探讨了软件漏洞对日常软件系统的重大影响,评估了深度学习模型在现实场景中的表现,并发现了性能下降和过拟合等问题,提出了一个改进的数据集用于评估模型,并提出了增强技术以提高性能。
- PatchRefiner: 利用合成数据进行真实领域高分辨率单目度量深度估计
PatchRefiner 是一个高级框架,用于处理高分辨率实际领域输入的度量单图深度估计。通过使用瓷砖分割方法,采用了细节与尺度解耦的损失函数并结合合成数据,PatchRefiner 在深度估计方面取得了显著的性能提升,大幅超过了现有基准, - 分析综合退化对人脸识别的影响
分析面部识别模型在真实场景中的鲁棒性,研究表明合成退化会显著降低模型性能,强调了考虑真实世界复杂性的重要性。
- 从单变量干预推导因果顺序:保证与算法
根据数据分布的实际假设,本研究引入了干预忠实度的概念以及一种用于推断因果关系的得分,同时提出了一种名为 Intersort 的算法,能够从包含大量单变量干预的数据集中近似地优化因果顺序,为进一步改进因果推断提供了重要的潜力。
- SpGesture:基于 Jaccard 注意力脉冲神经网络的无源域自适应 sEMG 手势识别
通过膜电位作为记忆列表,我们首次将无源领域适应引入脉冲神经网络,以缓解由分布变化引起的准确性降低,并通过新型的脉冲波 Jaccard 注意力提高了脉冲神经网络对表面肌电图特征的表示能力,从而显著提高了系统的准确性。在收集的新的表面肌电图手势 - 能用思维树解决 Github 问题吗?
本研究介绍了 Tree of Thoughts(ToT)语言模型推理框架的应用,以增强大型语言模型(LLM)在解决实际问题时的决策和问题解决能力。通过改进性能,促进多个推理轨迹的结构化探索和潜在解决方案的自我评估,ToT 框架被用于提高代码 - LVOS:大规模长期视频对象分割的基准
视频对象分割(VOS)旨在在视频中区分和跟踪目标对象。我们提出了一个名为 LVOS 的新基准,比现有的数据集包含长 5 倍的视频,以更好地反映 VOS 模型在实际场景中的性能。在 LVOS 中,我们评估了 20 个现有的 VOS 模型,并发 - UniMERNet: 一个用于现实世界数学表达式识别的通用网络
该研究提供了 UniMER 数据集,对复杂的实际场景中的数学表达式识别进行了首次研究。UniMER 数据集由大规模训练集 UniMER-1M 和精心设计的测试集 UniMER-Test 组成,使得能够训练出鲁棒和高准确性的数学表达式识别模型 - PANet:一种基于物理引导的参数增强网络用于图像去雾
本文提出了一种物理引导的参数增强网络 (PANet),用于生成逼真的有雾和无雾训练对,以有效提升实际环境下的图像去雾性能。实验结果表明,PANet 可以增加多样逼真的有雾图像,丰富现有的有雾图像基准,从而有效提升最先进的图像去雾模型的性能。
- COLINGReflectSumm: 课程反思摘要的基准评估
这篇论文介绍了 ReflectSumm,这是一个专门为学生的反思写作而设计的新型概括数据集。ReflectSumm 的目标是促进开发和评估针对少量训练数据的现实场景的最新概括技术,具有潜在的一般意见概括领域和教育领域的影响。该数据集涵盖了各 - 关于合成数据的等效性、可替代性和灵活性
通过实证研究,我们调查了合成数据在实际场景中的有效性,发现合成数据不仅提高了模型性能,而且在不损失性能的情况下能够替代真实数据,展示出在现实问题中采集真实数据的效率问题上合成数据的潜力,并证明了相对灵活的数据生成器对于提升模型适应性,缩小领 - DITTO:轨迹转换实现示范模仿
通过离线和在线阶段的两步操作,本研究提出了一种通过单个 RGB-D 视频演示进行一次性模仿的机器人教学方法,包括轨迹提取、对象检测、轨迹匹配,借助多个辅助模型验证设计决策,并在真实世界场景下进行了广泛评估。
- DMAD:面向现实世界异常检测的双重内存库
通过使用统一的模型,提出了一种名为 Dual Memory bank enhanced representation learning for Anomaly Detection (DMAD) 的新框架,该框架处理了无监督和半监督场景,通过 - 针对真实世界图像质量评估的质量感知图像文本对齐
使用 QualiCLIP,这是一种基于 CLIP 的自监督方法,旨在解决无高质量参考图像时测量图像质量的问题;与其他方法相比,在不需要标记的主观测试分数的情况下,在真实场景中表现更好,并且具有更好的鲁棒性和解释性。
- 现实世界中的图神经网络调查:不平衡、噪声、隐私和 OOD 挑战
本研究系统地回顾了现有的图神经网络模型,重点关注解决实际场景中的不平衡、噪声、隐私和超出分布情景的四大挑战,同时提出了未来的研究方向和展望。
- 寻求真相:一种审问方法用于幻觉检测
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
- 团队形成中的冲突
在这项研究中,我们以团队形成中的冲突为问题,目标是根据个人的任务偏好和他们之间的冲突,将个体分配到任务中。我们使用依赖舍入方案作为主要工具箱,提供高效的近似算法。我们的框架非常灵活,可以模拟教育环境和人力资源管理中出现的许多不同的实际情况。 - 持续学习是否为现实世界的挑战做好准备?
通过使用模拟真实世界条件的新实验协议,本文验证了关于连续学习的假设,并评估迄今取得的进展。结果表明,考虑到所有方法均表现不佳,明显偏离联合离线训练的上限,这对现实环境中的现有方法的适用性提出了问题。本文旨在通过新的实验协议来倡导采用连续学习 - 复杂视觉系统上的多任务学习鲁棒性分析
多任务学习中的问题和挑战,包括优化算法的评估,梯度级别的比较,梯度角度和相对梯度范数的局限性,以及基于特征提取器的潜在空间和特征解缠的训练监测结果。
- 计划、创建、使用:实际复杂场景中综合工具利用的 LLM 基准测试
通过 UltraTool,我们提供了一个新的基准来改进和评估大型语言模型在实际场景中利用工具的能力,重点关注从规划、创建到应用工具的整个过程,并强调了真实世界的复杂性,需要准确的多步规划来解决问题,从而为这个快速发展的领域提供了新的见解。