- YOLOv10 及其起源:一篇十年来全面回顾《You Only Look Once》系列的论文
此综述系统地考察了 You Only Look Once(YOLO)目标检测算法从 YOLOv1 到最新发布的 YOLOv10 的发展进程。通过逆向时间顺序分析,研究探讨了 YOLO 算法带来的进步,从 YOLOv10 开始,逐步分析了 Y - MoLA: 运动生成与编辑的潜在扩散增强对抗训练
该论文提出了一种名为 MoLA 的快速高质量运动生成框架,能够处理多项编辑任务,并利用变分自动编码器和潜在扩散模型实现高质量的快速生成。此外,还应用了一种无需训练的引导生成框架来实现各种编辑任务,从而证明了对抗性学习在文本到运动生成中的有效 - PCR-99:一种 99% 异常值点云配准的实用方法
提出了一种能处理未知比例尺和极端异常值比例的点云配准鲁棒方法 PCR-99,使用确定性 3 点采样方法和两个新机制,显著提高了速度:(1) 基于两两比例一致性的样本改进排序,优先考虑更可能为内点的点对应关系,(2) 基于三元比例一致性的高效 - 人脸检测:现状与研究方向
计算机视觉领域中,人脸检测是大多数处理包含人的图像的应用的核心组件。尽管该领域已经有了很多研究,但人脸检测仍存在问题,如准确性和速度。本综述论文展示了该领域的进展以及仍需解决的重要问题,并提供了研究方向,可作为人脸检测领域的研究项目。
- 多层特征聚合与递归对齐网络在实时语义分割中的应用
通过引入多级特征聚合和递归对齐网络 (MFARANet),在实时推理速度下实现高分割准确度;利用 ResNet-18 作为骨干网络并提出三个核心组件来弥补由于骨干网络较浅导致的模型容量不足;在三个基准数据集上进行了综合实验,结果表明我们的方 - 更好的呼叫 GPT:大型语言模型与律师的比较
这篇论文通过比较大型语言模型与传统的法律合同审核人员、初级律师和法律流程外包商之间的差异,探讨了 LLMs 是否能在合同审核中在准确性、速度和成本效益方面超越人类。我们的实证分析将 LLMs 与由高级律师设定的标准相比较,发现这些先进的模型 - 高效译码的投机流水线执行
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
- SPEED:用于时间交互图嵌入的流式划分和并行加速
大规模时间交互图的 GPU 加速训练方法 (SPEED)。通过流式边分区和并行加速方法,SPEED 实现了更高的训练速度和更低的资源消耗,具有潜力在百万节点和十亿边的环境下进行训练和加速,并在后续任务中保持竞争力。
- 通过对抗知识蒸馏的闪电般快速视频异常检测
提出了一种非常快的视频异常检测模型,通过从多个高精度的目标级教师模型中提取知识来学习检测异常。通过联合应用标准和对抗蒸馏,利用对每个教师的对抗鉴别器来区分目标和生成的异常图,从而提高了学生的保真度。对三个基准数据集(Avenue,Shang - SpeedFolding: 学习高效的双手折叠衣物
本文描述了一个名为 SpeedFolding 的双手系统,使用一种新颖的神经网络体系结构来预测钳爪姿势的配对,实现对衣物的快速折叠,可在平均不到 120 秒的时间内折叠多达 30-40 次,并成功适应不同颜色、形状和硬度的衣物。
- YOLOv7:可训练的免费物品袋集合为实时物体检测器设立了新的技术水平
YOLOv7 是一种实时目标检测器,其速度和精度表现均优于已有模型,且只在 MS COCO 数据集上进行训练。
- 2021 年神经网络验证竞赛第二次国际比赛:总结和结果
本文总结了第二届国际神经网络验证竞赛 (VNN-COMP 2021),该竞赛的目标是比较神经网络验证领域最先进的方法在可扩展性和速度方面的表现,并介绍了比赛规则、基准、参赛工具、结果以及所学到的教训。
- MM知道何时放弃:基于 Patch Attention 的选择性级联回归用于实时人脸对齐
研究了面部关键点估计的准确性和速度问题,提出了一种基于软件的面部关键点姿态估计方法,利用逐步迭代预测回归误差的方法来区分样本,通过多尺度、基于补丁的轻量级特征提取器来进行面部关键点姿态估计,在移动设备 GPU 上实现了实时运行。
- EMNLP使用指针网络重排序将不连续转换为连续解析
通过将不连续成分的树转换成连续的变体,并使用指针网络和双射函数,将不连续的解析降低到一项连续问题,这项方法与全面的不连续算法相比具有相当准确率,但速度要快得多。
- PanoRoom:从球体到 3D 布局
我们提出了一种新型的 FCN,能够与全向图像一起工作,输出精确的概率地图,表示室内场景的主要结构,能够适用于不同的数据。我们的方法处理遮挡,并且更准确地恢复了房间实际形状。我们不仅在 3D 模型精度方面优于现有技术,而且在速度方面也优于现有 - ACL八省份: 8 位神经机器翻译
在这篇论文中,我们展示了使用 8 位量化对使用 32 位浮点值进行训练的模型进行翻译的有效性,结果表明 8 位翻译在速度上有不可忽略的影响,而在准确性和充分性上没有退化。
- 视频物体检测的印象网络
本文提出了一种名为 Impression Network 的视频物体检测框架,它通过迭代地融合可以提取的稀疏帧特征,创建一种名为 'impression feature' 的自然高效特征聚合机制,在提高速度的同时,获得了比现有方法更高的准确 - Stanford 依存句法分析方法的实证比较
本文重新审视了 Cer 等人(2010)提出的一个问题:在获得 Stanford 依赖性方面,准确性与速度之间的权衡是什么?我们还探讨了输入表示对这种权衡的影响:词性标记、替代依赖性表示作为输入以及单词的分布表示。我们发现,直接依赖解析是一 - ACL领域无关线性文本分割的进展
本篇论文介绍了一种线性文本分割的方法,相比于现有技术(Reynar,1998),其准确性提高了两倍,速度加快了七倍以上。该方法通过局部上下文中的排名替代句间相似度,并利用分裂聚类发现边界位置。