- 基于知识蒸馏方法的高度受限编码孔径成像系统设计
提出了一种针对高度物理约束的计算光学成像系统的知识蒸馏框架,通过引入高性能的无约束计算光学成像系统作为 “教师”,指导具有有限快照数的物理约束系统(“学生”)的优化,并使用二进制编码光阑单像素相机进行验证,在单色和多光谱图像重建上证明了该方 - Diff3DS: 通过可微曲线渲染生成视图一致的三维素描
借助 Diff3DS 框架,通过在 2D 图像域中计算的梯度,实现了 3D 草图的端到端优化。该框架可以用于文本到 3D 草图和图像到 3D 草图的生成任务,支持基于蒸馏的监督学习,如 Score Distillation Sampling - SIGIR随机 RAG:通过预期效用最大化的端到端检索增强生成
通过引入 Stochastic RAG,本文提出了一种新颖的端到端优化方法,通过在 RAG 中将检索过程建模为一个无替换的随机抽样过程,利用可微的 Gumbel-top-k 提供了一个不同 iable 的无替换采样方法,从而实现了针对 RA - CVPR在端到端和两步法文本定位之间建立桥梁
通过引入 Bridging Text Spotting 方法,本文解决了两步方法中存在的错误累积和次优性能问题,同时保留了模块化特性。通过将训练良好的检测器和识别器锁定参数,并通过初始化权重为零的神经网络连接它们,确保了检测中的大感受野特征 - Polar-Doc: 极坐标约束下的多尺度一阶段文档矫正
本文提出了一种使用极坐标表示(Polar-Doc)的文档平整化方法,将分割和去变形网络统一到单个阶段中进行点回归框架的训练,在像素对齐度量和 OCR 度量方面取得了新的最优表现。
- 放松:端到端动态机器学习的可组合抽象
Relax 是一种编译器抽象,通过引入一流的符号形状注释来全局跟踪动态形状计算,从而实现端到端的动态机器学习工作负载的优化,并且在各种平台上提供与手动优化系统相媲美的性能,使新兴动态模型能够在更广泛的环境中部署。
- 可微分的分辨率压缩与对齐,用于高效视频分类和检索
通过 Differentiable Resolution Compression and Alignment 机制,我们提出了一种高效的视频表示网络,以减小计算成本,同时保持一致的时间相关性,从而在近似重复视频检索和动态视频分类方面取得了最 - 使用学习的彩色编码光圈从单个光学编码图像估计深度
利用光学编码和卷积神经网络的端到端优化方法,提出了一种多色滤光片的颜色编码孔径和卷积神经网络联合学习的深度估计方法,实验证明该方法能够提供更好的深度估计,并在真实场景中验证了该方法的可行性。
- 面向库存管理的业务指标感知预测
时序预测对于商业规划起重要作用,但常规预测度量的优化往往无视下游业务目标,导致与商业偏好不符的预测结果。本研究关注库存管理领域,以一种可微的端到端方式计算和优化常见的下游业务度量的代理指标,通过大量的成本权衡情景实证表明端到端优化通常优于对 - DEYOv2:一种基于贪心匹配的排序特征方法用于端到端物体检测
本文提出了一种名为 DEYOv2 的新型物体检测器,它利用渐进式推理方法加速模型训练并提高性能,采用一对多匹配和端到端优化的方式,结合经典检测器和查询型检测器的优点,在同等设置下超过了所有现有的基于查询的端到端检测器。
- 通过查询计算树优化在知识图谱上回答复杂逻辑查询
QTO is an efficient method for optimizing query computation trees in knowledge graphs, which achieves state-of-the-art p - ECCV动态低分辨率蒸馏用于高效端到端文本检测
本文提出了一种全新的具有成本效益的动态低分辨率蒸馏(DLD)文本识别框架,其中采用了分辨率选择器来动态确定不同图像的输入分辨率,并对文本识别分支进行了连续知识蒸馏策略,使低分辨率图像的性能得到了改善。
- 物理学知识指导的神经场方法用于稀疏数据下的烟雾重建
本文提出了一种方法,通过利用流体的 Navier-Stokes 方程作为答案进行稀疏视频的端到端优化,实现通过 RGB 视频的高保真流体重构。
- ACLTranskimmer: Transformer 学会按层略过
提出了 Transkimmer architecture,通过添加参数预测器和 reparameterization trick 来实现 Transformer 模型中的 token 跳过,从而提高计算效率,并在 GLUE 基准测试中取得了 - CVPRAdaFocus V2:面向视频识别的空间动态网络的端到端训练
介绍了一种基于差值插值的补丁选择算法,简化了 AdaFocus 的训练过程并提高了效率,并提出了一种改进的训练方案和条件退出技术,该模型在六个基准数据集上表现出更好的性能。
- 端到端速率失真优化的学习式分层双向视频压缩
本研究提出了一种基于学习的分层双向视频编解码器,结合分层运动预测和端到端优化,实现了目前为止在 PSNR 和 MS-SSIM 上报告的学习视频压缩方案的最佳 R-D 结果,相对于传统视频编解码器,在 PSNR 和 MS-SSIM 以及 HM - 低保真端到端视频编码器预训练用于时间动作定位
提出了一种新的 LoFi 视频编码器预训练方法,通过减少时空或时空分辨率的 mini-batch 组合来实现对编码器的端到端优化,有助于解决任务不一致性问题并提供更有效的特征表示,从而显著提高了现有 TAL 方法的性能。
- ICLRBoost then Convolve: 梯度提升相遇图神经网络
该论文提出了一种新的网络结构,将 GNN 和 GBDT 训练在一起,以达到异质图表节点特征下最优化的效果,该模型经过广泛实验,证明在各种具有表格特征的图上性能显著提高。
- AAAI数据增强策略和网络结构的联合搜索
本文提出了一种联合优化模型,实现了数据增强策略和神经网络架构的端到端优化,以实现自动化神经网络训练。实验结果显示,本方法的性能优于独立搜索的结果。
- 深度图像合成
该论文介绍了一种利用前景和背景图片的上下文和颜色信息进行端到端优化并采用自学习策略来训练的,能够自动生成高质量图像合成的新方法,该方法基于拉普拉斯金字塔融合,提出了一种密集的多流融合网络,并在易于复杂的情况下进行渐进式训练,其在定性和定量上