从外部数据库中检索黑盒最优图像
通过基于文本 - 视频帧相似度的关键帧选择方法,KeyVideoLLM 能够高效、鲁棒、有效地管理 VideoLLM 数据,并在视频问答任务中显著改善模型性能,实验结果一直保持在最新技术的前沿。
Jul, 2024
通过分析开源的小型生成语言模型(GLMs)在自动化文本评分(ATS)中的性能和效率,结果表明 GLMs 可以进行适当的微调以达到足够的性能。此外,在分析模型生成反馈能力方面,虽然由模型生成的反馈有潜力,但需要更严格的针对特定使用情况的评估。
Jul, 2024
当前深度学习模型在处理图像时存在的重要局限性是它们无法像人类视觉一样,高效地只选择必要的视觉区域进行处理,导致速度慢且能耗高。本文从广泛的角度考察了这个问题,并提出了解决方案,为下一代更高效的视觉模型铺平了道路。基本上,本文采用了选择性地对变换后的区域进行卷积和池化操作,并将变化图传递给后续层次。这个图指示了哪些计算需要重复执行。源代码可在此 URL 进行查看。
Jul, 2024
在这项研究中,我们提出了一个名为 PCX 的库,旨在解决机器学习中预测编码网络的效率和可扩展性问题,并使用 PCX 实现了一系列用于实验的基准测试。我们通过广泛的基准测试和算法比较,展示了 PCX 的高效性,并指出了需要解决的潜在局限性,为解决该领域的主要开放问题之一 —— 可扩展性提供了基准。
Jul, 2024
在车联网社交网络中,本文引入了一种以学习为基础的算法,用于优化数据传输的调度,同时保证效率和安全性。通过构建神经网络来增强数据处理能力,并在数据传输阶段采用 Q-learning 范式来优化信息交换,通过通信过程中的差分隐私来保护隐私。实验证明相对于现有先进的调度算法,所提出的 Q-learning 增强调度算法在车联网社交网络背景下表现出优越的性能。
Jun, 2024
LightStereo 是一种创新的立体匹配网络,利用 3D 成本体作为轻量级替代品以加速匹配过程,并通过专注于 3D 成本体的通道维度增强性能,从而在速度、准确度和资源利用方面展现出卓越性能。
Jun, 2024
提出了一种双重深度神经网络(D-DNet)预测与数据同化系统,能够高效整合实时观测,确保可靠的运营预测。D-DNet 在 PM2.5 和 AOD550 的全球运营预测方面表现优秀,在 2019 年整年内保持一致的准确性,并比 Copernicus Atmosphere Monitoring Service (CAMS) 4D-Var 运营预测系统具有显著的高效性,同时保持可比较的准确性。这种高效性有利于集合预测、不确定性分析和大规模任务。
Jun, 2024
从粒计算的角度构建了一个新颖的多级连续三态决策组协作决策方法,针对复杂、不确定性的群体决策问题进行了分析和改进,提出了一种高效的信息融合方法,并定义了决策层次的信息提取 / 汇总的概念,利用邻域理论、比较关系和遗憾理论重建了条件概率和相对损失函数的计算,进一步提出了基于连续三态决策的 DHHFLTS 的粒结构以提高决策效率,并给出了 S3W-GDM 的算法,通过示例诊断和与其他方法的比较和敏感性分析来验证了所提方法的效率和合理性。
Jun, 2024
LOOK-M 是一个节省多模态 KV 缓存大小的创新方法,其通过优化文本和图像特征的交互作用,使用新的文本优先方法来压缩 KV 缓存,以及使用 KV 对的合并来缓解图像上下文信息的退化,实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。
Jun, 2024