- SPEAR:联邦学习中批量的精确梯度反演
提出了第一个可以准确重建批量大小为大于 1 的全批量的算法,并通过 ReLu 诱导的梯度稀疏性来过滤错误样本,具有高效的 GPU 实现,能够准确恢复小于 25 个元素的批量,适用于大型网络。
- 使用镜像下降与共轭梯度的高效准确最优输运
我们设计了一种新的算法来计算最优运输成本,该算法结合了熵最优运输、镜像下降和共轭梯度文献,能够高效地在 GPU 上实现,表现出更快的迭代收敛速度,并能适应高熵边际分布的复杂优化问题,我们在 MNIST 数据集上进行了实验,结果显示该算法是实 - CVPR不平衡最优传输:物体检测的统一框架
本文提出了一种新方法,使用不平衡最优输运(Unbalanced Optimal Transport)对目标检测模型进行训练,能够在 AP 和 AR 方面达到业内最好水平,并提供更快的初始收敛速度,适合于大规模模型的 GPU 实现。
- CVPRFastDOG: GPU 上的快速离散优化
本文提出一种基于广泛并行的拉格朗日分解方法,用于解决出现在结构化预测中的 0-1 整数线性规划问题。通过使用二叉决策图对子问题进行表示,我们的 GPU 实现改进了 Lange 等人 (2021) 算法的运行时间。
- CVPRRAMA:一种基于 GPU 的快速多割算法
本文提出了一种高度并行化的基于原始 - 对偶算法的方法来解决基于图的聚类问题,通过 GPU 实现,相比于传统的顺序算法在执行速度方面取得了 1-2 个数量级的提升,同时解决了规模为 O (10^8) 的问题。
- 神经网络验证的 Lagrangian 分解
通过 Lagrangian 分解,提出了一种新的神经网络验证方法,其在 GPU 上实施时可提供有效的结果,以推测最大化值的边界,并且可以随时停止,可用于推导形式化验证。
- CatBoost:支持分类特征的梯度提升
本文介绍了一种新的机器学习技术 ——CatBoost,它可以成功地处理分类特征,成为了一个开源梯度提升库, 在一系列的数据集上表现出了优秀的性能,并且使用 GPU 实现了学习算法和 CPU 实现了评估算法,比其他相似规模的梯度提升库更快。
- Flex-Convolution (百万级点云学习:超越网格世界)
本文介绍了一种新型灵活卷积方法,及其 GPU 实现,以适应不规则的 3D 点云数据,并在百万级数据集上获得了显著提升。该方法具有较小的参数和存储需求,是首个能同时处理 700 万个点的有效方法。
- 利用和保持卷积网络中的稀疏性的推断、学习和注意力机制
本文介绍一种利用 CNNs 去处理罕见数据的工具套件,包括直接稀疏卷积、注意力机制避免填充,以及适用于标准学习框架的反向传播算法改进,可以实现比传统密集框架更低的内存足迹和计算时间。
- 使用 CNN 的改进双线性池化
本文研究了归一化二阶卷积特征的几种方式,其中以矩阵平方根归一化和元素平方根加 L2 归一化的方案为最佳,改进后在细粒度识别数据集上性能提高了 2-3%。研究还发现,在边界情况得到合理处理后,用于计算梯度的数值方法与网络的最终准确性关系较小。 - 在 GPU 上高效地进行大规模近似最近邻搜索
本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法,在 GPU 实现方面取得了比 CPU 更高的性能表现,适用于视频中循环关闭等对时间敏感的高维问题。
- ACL在 GPU 上使用有限状态转导进行解码
通过 GPU 实现 Viterbi 算法和前向 - 后向算法对加权有限状态自动机进行加速,取得了至多 5.2 倍于串行实现输出速度,并对 OpenFST 实现达到 6093 倍的加速效果。
- 咖啡因 FPGA:用于卷积神经网络的 FPGA 框架
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取 - 双分图 GPU 加速最大基数匹配算法
本篇论文提出并评估了一种使用 GPU 的算法,用于在二分图中解决最大基数匹配问题。通过与现有的串行和多核实现进行比较,研究者证明在大多数实际应用场景下,其 GPU 加速算法明显快于其他算法。
- 高性能神经网络用于视觉物体分类
本研究使用 GPU 实现卷积神经网络,并利用监督学习的方法进行特征提取,通过设计深度分层结构比以往浅层网络获得更好的性能,在目标分类和手写数字识别任务中取得了目前最佳的结果。