gpu implementation | BriefGPT

关键词gpu implementation

搜索结果 - 15

SPEAR：联邦学习中批量的精确梯度反演
提出了第一个可以准确重建批量大小为大于 1 的全批量的算法，并通过 ReLu 诱导的梯度稀疏性来过滤错误样本，具有高效的 GPU 实现，能够准确恢复小于 25 个元素的批量，适用于大型网络。
PDF4 months ago
使用镜像下降与共轭梯度的高效准确最优输运
我们设计了一种新的算法来计算最优运输成本，该算法结合了熵最优运输、镜像下降和共轭梯度文献，能够高效地在 GPU 上实现，表现出更快的迭代收敛速度，并能适应高熵边际分布的复杂优化问题，我们在 MNIST 数据集上进行了实验，结果显示该算法是实
PDFa year ago
CVPR不平衡最优传输：物体检测的统一框架
本文提出了一种新方法，使用不平衡最优输运（Unbalanced Optimal Transport）对目标检测模型进行训练，能够在 AP 和 AR 方面达到业内最好水平，并提供更快的初始收敛速度，适合于大规模模型的 GPU 实现。
PDFa year ago
CVPRFastDOG: GPU 上的快速离散优化
本文提出一种基于广泛并行的拉格朗日分解方法，用于解决出现在结构化预测中的 0-1 整数线性规划问题。通过使用二叉决策图对子问题进行表示，我们的 GPU 实现改进了 Lange 等人 (2021) 算法的运行时间。
PDF3 years ago
CVPRRAMA：一种基于 GPU 的快速多割算法
本文提出了一种高度并行化的基于原始 - 对偶算法的方法来解决基于图的聚类问题，通过 GPU 实现，相比于传统的顺序算法在执行速度方面取得了 1-2 个数量级的提升，同时解决了规模为 O (10^8) 的问题。
PDF3 years ago
神经网络验证的 Lagrangian 分解
通过 Lagrangian 分解，提出了一种新的神经网络验证方法，其在 GPU 上实施时可提供有效的结果，以推测最大化值的边界，并且可以随时停止，可用于推导形式化验证。
PDF4 years ago
CatBoost：支持分类特征的梯度提升
本文介绍了一种新的机器学习技术 ——CatBoost，它可以成功地处理分类特征，成为了一个开源梯度提升库，在一系列的数据集上表现出了优秀的性能，并且使用 GPU 实现了学习算法和 CPU 实现了评估算法，比其他相似规模的梯度提升库更快。
PDF6 years ago
Flex-Convolution （百万级点云学习：超越网格世界）
本文介绍了一种新型灵活卷积方法，及其 GPU 实现，以适应不规则的 3D 点云数据，并在百万级数据集上获得了显著提升。该方法具有较小的参数和存储需求，是首个能同时处理 700 万个点的有效方法。
PDF6 years ago
利用和保持卷积网络中的稀疏性的推断、学习和注意力机制
本文介绍一种利用 CNNs 去处理罕见数据的工具套件，包括直接稀疏卷积、注意力机制避免填充，以及适用于标准学习框架的反向传播算法改进，可以实现比传统密集框架更低的内存足迹和计算时间。
PDF6 years ago
使用 CNN 的改进双线性池化
本文研究了归一化二阶卷积特征的几种方式，其中以矩阵平方根归一化和元素平方根加 L2 归一化的方案为最佳，改进后在细粒度识别数据集上性能提高了 2-3%。研究还发现，在边界情况得到合理处理后，用于计算梯度的数值方法与网络的最终准确性关系较小。
PDF7 years ago
在 GPU 上高效地进行大规模近似最近邻搜索
本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法，在 GPU 实现方面取得了比 CPU 更高的性能表现，适用于视频中循环关闭等对时间敏感的高维问题。
PDF7 years ago
ACL在 GPU 上使用有限状态转导进行解码
通过 GPU 实现 Viterbi 算法和前向 - 后向算法对加权有限状态自动机进行加速，取得了至多 5.2 倍于串行实现输出速度，并对 OpenFST 实现达到 6093 倍的加速效果。
PDF7 years ago
咖啡因 FPGA：用于卷积神经网络的 FPGA 框架
本文介绍了一种修改版 CNN 框架 Caffe，该框架支持 FPGA 实现，并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎，能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型，取
PDF8 years ago
双分图 GPU 加速最大基数匹配算法
本篇论文提出并评估了一种使用 GPU 的算法，用于在二分图中解决最大基数匹配问题。通过与现有的串行和多核实现进行比较，研究者证明在大多数实际应用场景下，其 GPU 加速算法明显快于其他算法。
PDF11 years ago
高性能神经网络用于视觉物体分类
本研究使用 GPU 实现卷积神经网络，并利用监督学习的方法进行特征提取，通过设计深度分层结构比以往浅层网络获得更好的性能，在目标分类和手写数字识别任务中取得了目前最佳的结果。
PDF13 years ago