- 大规模相位恢复
本文介绍了一种高效且具有强大泛化能力的大规模相位恢复技术,其使用交替投影算法和增强的神经网络分别处理测量和统计优化问题,有效地弥补了各个操作符的缺点,并在计算成本较低的前提下实现了大规模相位恢复,被应用于计算相位成像中的各种模态并验证了其优 - KDDOGB-LSC:基于图形的机器学习的大规模挑战
介绍 OGB Large-Scale Challenge (OGB-LSC) 数据集,提供了链接预测、图回归和节点分类等三个核心图学习任务的基线实验,并展示了表达性图机器学习模型的巨大优势和当前大规模图机器学习的最佳实践。该数据集已经在 A - ParaSCI: 一个大型的科学同义改写数据集,用于长句子同义改写生成
提出了 ParaSCI,这是第一个在科学领域内的大规模释义数据集,包括来自 ACL(ParaSCI-ACL)的 33,981 对释义和来自 arXiv(ParaSCI-arXiv)的 316,063 对释义。通过收集对同一篇论文的引用或聚合 - KDD基于 k - 分解的大规模子空间聚类
本文介绍了一种名为 k-Factorization Subspace Clustering (k-FSC) 的方法,用于大规模子空间聚类。该方法通过追求矩阵分解模型中的结构稀疏性,直接将数据因式分解成 k 组,从而避免了学习亲和矩阵和进行特 - IJCAI在线广告中大规模最大加权 b 匹配问题的启发式搜索加速学习
提出了 exttt {NeuSearcher} 算法解决大规模、动态的二部匹配问题,该算法基于多通道图神经网络,通过预测匹配边的权重阈值显著减少搜索区域,并结合并行启发式搜索算法迭代提高解决方案的质量,实验证明这种方法能提高 2 至 3 - NLP 模型训练成本:简明概述
本文回顾了大规模语言模型训练的成本和驱动因素,适用于预算模型训练实验的工程师和科学家,以及试图理解现代自然语言处理经济学的非实践者。
- CVPRGoogle Landmarks 数据集 v2 -- 一个用于实例级别识别和检索的大规模基准测试
本文介绍了 Google Landmarks Dataset v2 (GLDv2),它是迄今为止最大的数据集,在人工制造和自然地标的领域内进行了大规模的、细粒度的实例识别和图像检索,并具有极长的类分布、大量的测试相片以及大内部类的变异性等具 - ICCVMOD: 一种利用在线知识蒸馏的深度混合模型,用于大规模视频时序概念定位
探讨了一个深度混合模型,在在线知识蒸馏的帮助下,能够更好地在较小的数据集上进行微调,实现了大规模视频时间概念定位,并在 Youtube-8M 视频理解挑战中取得了第三名。
- ReQA: 面向端到端答案检索模型的评价
本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering(ReQA),并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究 - 量子退火的视角:方法和实现
这篇论文介绍了量子退火作为一种计算范式的概念,探讨了量子计算面临的挑战和潜在解决方案,并强调实验和理论之间的协同作用,着重讨论了未来的发展方向和意义。
- 可扩展的双曲推荐系统
我们提出了一个大规模的双曲线推荐系统,使用双曲几何作为基础几何模型可以显著提高推荐效果,并通过使用 Einstein 中间点等策略,实现了对数百万用户和数十万物品的大规模推荐。
- 百万级人脸识别的公平竞争环境
本文介绍了一个名叫 MF2 的基准测试集,要求所有算法在同一数据集上训练并在大规模人脸识别测试中进行测试。研究发现,相对于另外两个大规模测试集,算法在 MF2 上的训练效果更加出色,需要将年龄变化量放宽或调整算法来提高准确率。
- 基于分割的三维点云闭环检测算法 SegMatch
提出了一个基于匹配三维片段的可靠的循环闭合检测算法 SegMatch,它不依赖于 “完美分割” 的假设或在环境中 “物体” 的存在,并可在大规模、非结构化环境下实现 1Hz 的准确定位和实时闭环检测。
- NIPS高斯过程随机场
介绍了一种新的大规模高斯过程的近似方法 —— 高斯过程随机场,在合理精度和计算代价的前提下实现了潜在变量建模和超参数调节,并在合成空间数据和地震事件定位的真实世界应用中展示了其有效性。
- 大规模人脸搜索:8000 万图库
本文提出了一个脸部搜索系统,它使用快速搜索程序和 COTS 匹配器相结合的级联框架,通过卷积神经网络生成的深度特征来过滤大量的照片,并在 80 百万张网络下载的人脸图像的图库上对该系统进行了评估。
- 复杂分析中欠缺的一环:使用 Velox 进行低延迟、可扩展的模型管理和服务
本文介绍了 Velox,一个数据管理系统,支持在线模型管理、维护和服务,以推荐产品、定向广告和个性化网络内容为主要功能,其架构方面的挑战包括跨在线和离线系统、自适应调整模型物化策略,并利用统计特性如模型误差容忍性,在 “大数据” 规模下运行 - 蒙特卡罗非局部均值:大规模图像滤波的随机抽样
提出了 Monte Carlo 非局部均值(MCNLM)算法,该算法随机选择图像补丁距离的子集以加速经典的 NLM 滤波算法,并通过优化设计的样本模式导出蒙特卡罗方法的随机结果,使 MCNLM 在图像处理领域变得竞争性。