从外部数据库中检索黑盒最优图像

WSDMDec, 2021

从外部数据库中检索黑盒最优图像

Retrieving Black-box Optimal Images from External Databases

Ryoma Sato

TL;DR本文提出了一种基于 Tiara 算法的图像检索方法，该方法适用于只具备相对有限的图像数据库查询权限的用户，通过黑盒函数进行文件搜索、处理和挑选，相对于多种对比实验我们证明了 Tiara 算法在效率和检索准确性上的优越性。

Abstract

Suppose we have a black-box function (e.g., deep neural network) that takes an image as input and outputs a value that indicates preference. How can we retrieve optimal images with respect to this function from an external database on the Internet? Standard retrieval problems in the li

image retrieval black-box function database search algorithm efficiency

发现论文，激发创造

KeyVideoLLM：面向大规模视频关键帧选择

通过基于文本 - 视频帧相似度的关键帧选择方法，KeyVideoLLM 能够高效、鲁棒、有效地管理 VideoLLM 数据，并在视频问答任务中显著改善模型性能，实验结果一直保持在最新技术的前沿。

Jul, 2024

基于生成型 AI 的自动文本评分技术在性能较低的 GPU 环境中的应用

通过分析开源的小型生成语言模型（GLMs）在自动化文本评分（ATS）中的性能和效率，结果表明 GLMs 可以进行适当的微调以达到足够的性能。此外，在分析模型生成反馈能力方面，虽然由模型生成的反馈有潜力，但需要更严格的针对特定使用情况的评估。

Jul, 2024

解决深度视觉模型中的一个基本限制：缺乏空间注意力

当前深度学习模型在处理图像时存在的重要局限性是它们无法像人类视觉一样，高效地只选择必要的视觉区域进行处理，导致速度慢且能耗高。本文从广泛的角度考察了这个问题，并提出了解决方案，为下一代更高效的视觉模型铺平了道路。基本上，本文采用了选择性地对变换后的区域进行卷积和池化操作，并将变化图传递给后续层次。这个图指示了哪些计算需要重复执行。源代码可在此 URL 进行查看。

Jul, 2024

预测编码网络基准测试 —— 简易版

在这项研究中，我们提出了一个名为 PCX 的库，旨在解决机器学习中预测编码网络的效率和可扩展性问题，并使用 PCX 实现了一系列用于实验的基准测试。我们通过广泛的基准测试和算法比较，展示了 PCX 的高效性，并指出了需要解决的潜在局限性，为解决该领域的主要开放问题之一 —— 可扩展性提供了基准。

Jul, 2024

RMS-FlowNet++: 大规模点云的高效稳健多尺度场景流估计

RMS-FlowNet++ 是一种新颖的端到端学习架构，用于准确且高效地估计场景流动，可以处理高密度的点云。

Jul, 2024

面向安全高效的车联网社交网络数据调度

在车联网社交网络中，本文引入了一种以学习为基础的算法，用于优化数据传输的调度，同时保证效率和安全性。通过构建神经网络来增强数据处理能力，并在数据传输阶段采用 Q-learning 范式来优化信息交换，通过通信过程中的差分隐私来保护隐私。实验证明相对于现有先进的调度算法，所提出的 Q-learning 增强调度算法在车联网社交网络背景下表现出优越的性能。

Jun, 2024

LightStereo: 基于通道增强的高效二维代价聚合

LightStereo 是一种创新的立体匹配网络，利用 3D 成本体作为轻量级替代品以加速匹配过程，并通过专注于 3D 成本体的通道维度增强性能，从而在速度、准确度和资源利用方面展现出卓越性能。

Jun, 2024

利用双重深度神经网络推进 PM2.5 运营预测 (D-DNet)

提出了一种双重深度神经网络（D-DNet）预测与数据同化系统，能够高效整合实时观测，确保可靠的运营预测。D-DNet 在 PM2.5 和 AOD550 的全球运营预测方面表现优秀，在 2019 年整年内保持一致的准确性，并比 Copernicus Atmosphere Monitoring Service (CAMS) 4D-Var 运营预测系统具有显著的高效性，同时保持可比较的准确性。这种高效性有利于集合预测、不确定性分析和大规模任务。

Jun, 2024

双层次犹豫模糊语言词组的顺序三方群体决策

从粒计算的角度构建了一个新颖的多级连续三态决策组协作决策方法，针对复杂、不确定性的群体决策问题进行了分析和改进，提出了一种高效的信息融合方法，并定义了决策层次的信息提取 / 汇总的概念，利用邻域理论、比较关系和遗憾理论重建了条件概率和相对损失函数的计算，进一步提出了基于连续三态决策的 DHHFLTS 的粒结构以提高决策效率，并给出了 S3W-GDM 的算法，通过示例诊断和与其他方法的比较和敏感性分析来验证了所提方法的效率和合理性。

Jun, 2024

LOOK-M: KV 缓存中的一次查找优化，用于高效的多模态长上下文推理

LOOK-M 是一个节省多模态 KV 缓存大小的创新方法，其通过优化文本和图像特征的交互作用，使用新的文本优先方法来压缩 KV 缓存，以及使用 KV 对的合并来缓解图像上下文信息的退化，实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。

Jun, 2024